previous up next contents
Previous: Contents Up: Aide à la décision Next: 2. Loi et test   Contents

Subsections

1. Échantillonage

1.1 Distribution d'échantillonage

Definition 1.1.1   Prélever un échantillon $ \omega$ de taille $ n$ au sein d'une population $ \Omega$ consiste à fournir une suite de $ n$ instanciations indépendantes de $ X\in\Omega$. Il s'agit donc d'une suite de $ n$ variables indépendantes et identiquement distribuées (iid). Lorsque l'on prélève un échantillon au sein d'une population finie, l'indépendance nécessite que l'on puisse sélectionner le même individu plusieurs fois de suite (tirage avec remise).

Notation 1.1.2   Dans ce qui suit, nous utilisons (sauf erreur ou omission) les notations suivantes :
  1. La population globale est notée $ \Omega$, ses paramètres de dispersion $ \mathrm{E}\left(X\right)$, $ \mathrm{var}\left(X\right)$ sont notés $ \mu$, $ \sigma^{2}$ et, lorsque cette population est finie, son effectif est noté $ N$.
  2. L'échantillon prélevé est noté $ \omega$, sa taille $ n$ et ses paramètres de dispersion $ m,\,\sigma_{n}^{2}$.
  3. Enfin, nos meilleures estimations pour $ \mu$, $ \sigma^{2}$ connaissant $ m,\,\sigma_{n}^{2}$ sont notées $ m,\, s^{2}$. Il se trouve que $ m=m$, tandis que $ s^{2}\neq\sigma^{2}$

Remark 1.1.3   L'hypothèse d'indépendance est indispensable pour appliquer tout ce qui suit. Par exemple un contrôle qualité qui ne vérifierait que le dessus d'une palette, ou qui serait effectué à heure fixe...

Definition 1.1.4   Les probabilités consistent à partir de la distribution supposée connue de la population $ \Omega$ et à en déduire la distribution de probabilité sur l'ensemble $ \widehat{\Omega}_{n}$ de tous les tirages avec remise de taille $ n$ : on veut prévoir le comportement d'un échantillon non encore sélectionné.

Definition 1.1.5   Les statistiques consistent à partir des propriétés d'un échantillon déjà sélectionné et à en inférer des propriétés de la population totale.

Remark 1.1.6   La population $ \Omega$ n'est rien d'autre que la population des échantillons de taille $ 1$.

1.2 Théorèmes sur l'échantillonnage

Remark 1.2.1   L'objectif est d'utiliser les paramètres de dispersion d'un échantillon pour obtenir des estimations $ m,\, s^{2}$ des paramètres $ \mu,\,\sigma^{2}$ de la population. Bien distinguer les statuts de ces trois sortes de nombres : les paramètres de l'échantillon sont réels et connus tandis que les paramètres de la population sont réels et inconnus. Enfin les quantités $ m,\, s^{2}$ sont connues mais fictives : ce sont des estimations (probabilistes) de grandeurs existantes, mais non connues.

Remark 1.2.2   Considération d'ordre économique : si l'on procède à un test destructif, il serait déraisonnable de ne pas avoir $ n\ll N$. Dans tout les cas, le coût du test est proportionnel à $ n$, tandis que la précision est (le plus souvent) en $ \sqrt{n}$, c'est à dire que deux fois plus précis coûte quatre fois plus cher. Le dimensionnement est l'une des questions à se poser.

Theorem 1.2.3 (Echantillonage de la moyenne)   La moyenne $ m$ d'un échantillon est une nouvelle variable aléatoire. Et l'on a :

$\displaystyle {\displaystyle \mathrm{E}\left(m\right)=\mathrm{E}\left(X\right)\qquad;\qquad\mathrm{var}\left(m\right)=\frac{1}{n}\mathrm{var}\left(X\right)}$ (1.1)

Remark 1.2.4   La propriété $ \mathrm{E}\left(m\right)=\mathrm{E}\left(X\right)$ montre que $ m$ peut servir à estimer la moyenne de la population. Le fait que $ \mathrm{var}\left(m\right)=\frac{1}{n}\,\mathrm{var}\left(X\right)$ montre que la précision augmente avec $ n$.

Exercise 1.2.5   Démontrer les formules 1.1.

Exercise 1.2.6   Application aux échantillons formés par $ n=5$ lancers successifs d'un dé équilibré.

Proposition 1.2.7   La variance $ \sigma_{n}^{2}$ des éléments d'un échantillon de taille $ n$ est une nouvelle variable aléatoire. Son espérance est $ \mathrm{E}\left(\sigma_{n}^{2}\right)=\frac{n-1}{n}\mathrm{var}\left(X\right)$.

Exercise 1.2.8   Démontrer le résultat précédent en partant de $ \mathrm{var}\left(X\right)=\mathrm{E}\left(\frac{1}{n}\sum\left(x_{i}-\mu\right)^{2}\right)$ et utilisant la formule de Koenig (en effet, $ \mu$ n'est pas la moyenne de l'échantillon).

Definition 1.2.9   On définit $ s^{2}$ (meilleure prévision pour la variance globale) par $ s^{2}\doteq\frac{n}{n-1}\,\sigma_{n}^{2}$.

Theorem 1.2.10 (Echantillonage de la variance)   La quantité $ s^{2}$ est une nouvelle variable aléatoire. Son utilisation comme estimateur de $ \sigma^{2}=\mathrm{var}\left(X\right)$ est fondée sur les formules :

$\displaystyle \mathrm{E}\left(s^{2}\right)=\mathrm{var}\left(X\right)\qquad;\qq...
...eft(\mathrm{M}^{4}-\frac{\left(n-3\right)}{\left(n-1\right)}\,\sigma^{4}\right)$ (1.2)

$ \mathrm{M}^{4}=\mathrm{E}\left(\left(X-\overline{X}\right)^{4}\right)$ est le moment d'ordre $ 4$.

Exercise 1.2.11   Appliquer ces théorèmes aux échantillons formés par $ n=5$ lancers successifs d'un dé équilibré.

Remark 1.2.12   La quantité $ s^{2}$ n'est ni la variance de l'échantillon ( $ \sigma_{n}^{2}$), ni la variance de la population ( $ \sigma^{2}$). Cette quantité $ s^{2}$ est un estimateur de la variance globale, obtenu à partir de la variance de l'échantillon.

Definition 1.2.13   Intervalle de confiance. On appelle intervalle de confiance (pour un seuil de décision $ \alpha\%$ donné) un intervalle $ I$ tel que $ Pr\left(x\in I\right)=\alpha\%$.

Remark 1.2.14   Le choix du seuil de décision $ \alpha\%$ ou, ce qui revient au même, du seuil de risque $ 1-\alpha\%$ est évidemment une étape cruciale dans tout processus de décision.

Definition 1.2.15 (Facteur de couverture)   Lorsqu'un intervalle de confiance sur une variable $ X$ avec $ \mathrm{E}\left(X\right)=\mu_{X}$ et $ \mathrm{var}\left(X\right)=\sigma_{X}^{2}$ est écrit sous la forme

$\displaystyle x\in\left[\mu_{X}-k\,\sigma_{X}\,;\,\mu_{X}+k\,\sigma_{X}\right]$

la quantité $ k$ s'appelle le facteur de couverture.

Definition 1.2.16 (Facteur de Fisher)   Lorsqu'un intervalle de confiance sur une variable $ X$ avec $ \mathrm{E}\left(X\right)=\mu_{X}$ et $ \mathrm{est}\left(\mathrm{var}\left(X\right)\right)=s_{X}^{2}$ est écrit sous la forme

$\displaystyle x\in\left[\mu_{X}-t\, s_{X}\,;\,\mu_{X}+t\, s_{X}\right]$

la quantité $ t$ s'appelle le facteur de Fisher.

Remark 1.2.17   Caveat : lorsque la "variable" est la valeur moyenne $ m$ d'un échantillon, il ne faut pas oublier que l'écart-type à prendre en compte n'est pas l'écart-type des individus (usuellement noté $ \sigma$), mais l'écart-type concernant la variable $ m$, c'est à dire : $ \sigma_{m}=\sigma/\sqrt{n}$

Remark 1.2.18   Pour un seuil de confiance donné, on a $ k<t$ : la quantité $ s$ n'étant qu'un estimateur de $ \sigma$, il faut augmenter la taille de l'intervalle.

Theorem 1.2.19 (TCL: Théorème Central Limite)   Si $ X_{1},\,\cdots,\, X_{n}$ sont des variables indépendantes, de moyennes $ \mathrm{E}\left(X\right)_{j}$ et de variances $ \mathrm{var}\left(X\right)_{j}$, on sait que leur somme $ Y_{n}$ a pour moyenne $ \mu_{n}\doteq\sum\mathrm{E}\left(X\right)_{j}$ et pour variance $ \sigma_{n}^{2}\doteq\sum\mathrm{var}\left(X\right)_{j}$. Si de plus $ \sigma_{n}^{2}\rightarrow\infty$ lorsque $ n\rightarrow \infty $ alors la loi de la variable réduite $ Z_{n}=\frac{Y_{n}-\mu_{n}}{\sigma_{n}}$ converge (point par point) vers la loi normale réduite $ Norm\left(1,\,0\right)$.

Proposition 1.2.20   Le facteur de couverture suit approximativement la loi normale réduite (loi de Gauss) dès que l'une des deux hypothèses suivantes est vérifiée :
(i) la population est approximativement distribuée selon la loi normale (indépendamment de la taille de l'échantillon)
(ii) n est assez grand pour que le TCL s'applique (indépendamment de la loi de la population)

1.3 Qu'est-ce qu'un test d'hypothèse ?

Example 1.3.1   On extrait un échantillon de taille $ n=20$ à partir d'une population $ \mu=10$, $ \sigma=2$. On trouve $ m=10.5$. On a $ \mathrm{E}\left(m\right)=\mu=10$ et $ \mathrm{var}\left(m\right)=\frac{\sigma^{2}}{n}=0.2$, soit une valeur réduite de $ z=\frac{m-\mu}{ecart\_type}=\frac{0.5}{\sqrt{0.2}}=1.12$. En appliquant le modèle normal, $ Pr\left(\left\vert Z\right\vert<z\right)\approx70\%$.

Example 1.3.2   On suppose que $ \sigma=2$. Un premier échantillon, de taille $ n_{1}=10$, donne $ m_{1}=11$ et un deuxième échantillon, de taille $ n_{2}=15$ et prélevé indépendamment, donne $ m_{2}=8$. On pose $ \delta=m_{1}-m_{2}$. Si les deux échantillons ont été prélevés dans une même population, on a $ \mathrm{E}\left(\delta\right)=0$ et $ \mathrm{var}\left(\delta\right)=\left(\sigma^{2}/m_{1}\right)$+ $ \left(\sigma^{2}/m_{2}\right)\approx\left(0.82\right)^{2}$. La variable réduite est dont $ z=\frac{3-0}{0.82}\approx3.67$. Si l'on utilise le modèle normal, les variables $ m_{1}$ et $ m_{2}$ sont indépendantes et normales : leur somme est normale... et $ Pr\left(Z\geq z\right)$ est de l'ordre de $ 1/10000$.

Remark 1.3.3   Dans le premier exemple, nous avons obtenu $ H\implies H\: probable$, ne prouvant rien du tout. Dans le deuxième exemple, nous avons obtenu $ H\implies Pr\left(H\right)\ll1$, prouvant que $ Pr\left(H\right)\ll1$ et donc suggérant de rejeter l'hypothèse $ H$.

Remark 1.3.4   Il convient de fixer clairement l'hypothèse testée, et de fixer le seuil de sécurité voulu. La conclusion est alors "rien ne prouve qu'il faille rejeter l'hypothèse" ou bien "vu le seuil fixé, l'hypothèse doit être rejetée".

Exercise 1.3.5   On obtient $ 600$ fois pile en $ 1000$ lancers d'une pièce de monnaie. Que peut-on conclure ?

Exercise 1.3.6   Voici les résultats de 40 lancers de pile ou face

\begin{displaymath}
\begin{array}{cccccccccccccccccccc}
0 & 1 & 1 & 1 & 0 & 1 & ...
... & 1 & 1 & 1 & 1 & 1 & 1 & 0 & 0 & 1 & 0 & 0 & 0 & 1\end{array}\end{displaymath}

Déterminer la moyenne $ m$ de cet échantillon. Utiliser cette valeur pour tester, au seuil de confiance de $ 99\%$, l'hypothèse $ H$ selon laquelle la pièce est bien équilibrée.

Exercise 1.3.7   Déterminer le prédicteur de variance $ s^{2}$ associé à l'échantillon précédent. Utiliser cette valeur, ainsi que la formule du cours, pour tester l'hypothèse $ H$ au seuil de confiance de $ 99\%$.

Exercise 1.3.8   Calculer le coefficient d'auto-corrélation de cette suite, c'est à dire le coefficient de corrélation des couples $ \left(x_{j},\, x_{j+1}\right)=\left(0,1\right),\,\left(1,1\right),\,\left(1,1\right),\,\left(1,0\right),\,\cdots$ (on complète par le couple $ \left(x_{40},\, x_{1}\right)$pour ne pas changer la taille de l'échantillon)

Exercise 1.3.9   Reprendre les calculs précédents pour la série

\begin{displaymath}
\begin{array}{cccccccccccccccccccc}
0 & 0 & 0 & 0 & 0 & 0 & ...
... & 0 & 0 & 0 & 0 & 0 & 0 & 1 & 0 & 0 & 0 & 0 & 0 & 0\end{array}\end{displaymath}

Exercise 1.3.10   Tester l'hypothèse $ H$ selon laquelle la première série correspond bien à des lancers indépendants d'une pièce équilibrée en considérant les $ 40$ valeurs de la variable $ y_{j}$ définie par $ y_{j}=1$ si $ x_{j+1}=x_{j}$ et par $ y_{j}=0$ sinon. . Même question pour l'autre série.

Exercise 1.3.11   Voici les résultats de $ 20$ lancers d'un dé :

\begin{displaymath}
\begin{array}{cccccccccccccccccccc}
1 & 2 & 5 & 1 & 6 & 6 & 1 & 5 & 2 & 2 & 4 & 1 & 4 & 4 & 4 & 4 & 4 & 5 & 5 & 6\end{array}\end{displaymath}

Déterminer les valeurs de $ m$ et de $ s^{2}$. Les utiliser pour tester l'hypothèse $ H$ selon laquelle le dé serait équilibré et les lancers indépendants entre eux.
Calculer le coefficient d'auto-corrélation de cette suite
On considère la variable $ y_{j}=x_{j+1}-x_{j}$. Calculer la moyenne $ d$ des valeurs obtenues. Quelles sont l'espérance et la variance de la variable $ d$ (sur l'ensemble des suites de 20 lancers et sous l'hypothèse $ H$) ? Conclure.

Exercise 1.3.12   Un lot de $ 50$ pièces de tissus comporte $ 12$ pièces non conformes. Un autre lot de $ 100$ pièces comporte $ 6$ pièces non conformes. Tester l'hypothèse $ H$ selon laquelle les deux productions ne seraient pas significativement différentes et la conformité d'une pièce indépendante de la conformité des autres.

Definition 1.3.13   On appelle erreur de première espèce le fait de rejeter l'hypothèse $ H_{0}$ alors que celle-ci était vraie. On note $ \alpha$ la probabilité de rejet sachant que $ H_{0}$ est vraie.

Remark 1.3.14   Par définition, le "risque de première espèce" $ \alpha$ est calculable.

Definition 1.3.15   On appelle erreur de deuxième espèce le fait d'accepter rejeter l'hypothèse $ H_{0}$ alors que celle-ci était fausse.

Remark 1.3.16   Lorsque $ \mathrm{not}H_{0}$ est simplement "n'importe quoi sauf $ H_{0}$", le risque de deuxième espèce $ \beta$ ne peut même pas être évalué. Seule une modélisation probabiliste de l'hypothèse alternative, qui serait alors décrite par une distribution certaine et précise, pourrait permettre une telle évaluation.


previous up next contents
Previous: Contents Up: Aide à la décision Next: 2. Loi et test   Contents


douillet@ensait.fr
2007-12-26