previous up next contents
Previous: Tests d'hypothèses Up: Tests d'hypothèses Next: 2 Loi et test   Contents

Subsections

1 Échantillonage

1.1 Distribution d'échantillonage

  1. Définition : échantillon. Un échantillon de taille $ n $ est une suite de $ n $ variables indépendantes et identiquement distribuées (iid). Lorsque l'on prélève un échantillon au sein d'une population finie, l'indépendance nécessite que l'on puisse sélectionner le même individu plusieurs fois de suite (tirage avec remise).
  2. Les probabilités consistent à partir de la distribution supposée connue de la population $ \Omega $ et a en déduire la distribution de probabilité sur l'ensemble $ \widehat{\Omega }_{n} $ de tous les tirages avec remise de taille $ n $ : on veut prévoir le comportement d'un échantillon non encore sélectionné.
  3. Les statistiques consistent à partir des propriétés d'un échantillon déjà sélectionné et à en inférer des propriétés de la population totale.
  4. Remarque : la population initiale n'est rien d'autre que la population des échantillons de taille $ 1 $.

1.2 Qu'est-ce qu'un test d'hypothèse ?

  1. Un calcul. On extrait un échantillon de taille $ n=20 $ à partir d'une population $ \mu =10 $, $ \sigma =2 $. On trouve $ m=10.5 $. On a $ \mathrm{E}\left( m \right) =\mu =10 $ et $ \mathrm{var}\left( m \right) =\frac{\sigma ^{2}}{n}=0.2 $, soit une valeur réduite de $ z=\frac{m-\mu }{ecart\_type}=\frac{0.5}{\sqrt{0.2}}=1.12 $. En appliquant le modèle normal, $ Pr\left( \left\vert Z\right\vert <z \right) \approx 70\% $.
  2. Un autre calcul. On suppose que $ \sigma =2 $. Un premier échantillon, de taille $ n_{1}=10 $, donne $ m_{1}=11 $ et un deuxième échantillon, de taille $ n_{2}=15 $ et prélevé indépendamment, donne $ m_{2}=8 $. On pose $ \delta =m_{1}-m_{2} $. Si les deux échantillons ont été prélevés dans une même population, on a $ \mathrm{E}\left( \delta \right) =0 $ et $ \mathrm{var}\left( \delta \right) =\left( \sigma ^{2}/m_{1}\right) $+ $ \left( \sigma ^{2}/m_{2}\right) \approx \left( 0.82\right) ^{2} $. La variable réduite est dont $ z=\frac{3-0}{0.82}\approx 3.67 $. Si l'on utilise le modèle normal, les variables $ m_{1} $ et $ m_{2} $ sont indépendantes et normales : leur somme est normale... et $ Pr\left( Z\geq z \right) $ est de l'ordre de $ 1/10000 $.
  3. Commentaire. Le premier calcul a montré que $ H\implies H\: probable $, c'est à dire ne prouvant rien du tout. Le deuxième calcul a montré que $ H\implies Pr\left( H \right) \ll 1 $, prouvant que $ Pr\left( H \right) \ll 1 $ et donc suggérant de rejeter l'hypothèse $ H $.
  4. Il convient donc de fixer clairement l'hypothèse testée, et de fixer le seuil de sécurité voulu. La conclusion est alors ``rien ne prouve qu'il faille rejeter l'hypothèse'' ou bien ``vu le seuil de rejet fixé, l'hypothèse doit être rejetée''.

1.3 Théorèmes sur l'échantillonage

  1. Rappel : dans ce qui suit, on note $ \Omega $ la population globale et $ \mu =\mathrm{E}\left( X \right) $, $ \sigma ^{2}=\mathrm{var}\left( X \right) $ ses paramètres de dispersion. Lorsque cette population est finie, son effectif est noté $ N $. On rappelle qu'un échantillon $ \omega $ est une suite de $ n $ instanciations indépendantes de $ X\in \Omega $. Le problème posé est de se renseigner sur $ \mu ,  \sigma $ (population) à partir de $ m,  s $ (échantillon).
  2. Remarque d'ordre économique. Si l'on procède à un test destructif, il serait déraisonnable de ne pas avoir $ n\ll N $. Dans tout les cas, le coût du test est proportionnel à $ n $, tandis que la précision est (le plus souvent) en $ \sqrt{n} $, c'est à dire que deux fois plus précis coûte quatre fois plus cher. Le dimensionnement est l'une des questions à se poser.
  3. Théorème : échantillonage de la moyenne. La moyenne $ m=moy\_e $ d'un échantillon est une nouvelle variable aléatoire, d'espérance $ \mathrm{E}\left( moy\_e \right) =\mathrm{E}\left( X \right) $. Elle peut donc servir à estimer la moyenne de la population. Le fait que $ \mathrm{var}\left( moy\_e \right) =\frac{1}{n}\mathrm{var}\left( X \right) $ montre que la précision augmente avec $ n $. En résumé :

    $\displaystyle \displaystyle \mathrm{E}\left( moy\_e \right) =\mathrm{E}\left( X...
...quad \mathrm{var}\left( moy\_e \right) =\frac{1}{n}\mathrm{var}\left( X \right)$ (1)

    exo 1.  Application aux échantillons formés par $ n=5 $ lancers successifs d'un dé équilibré.
  4. En outre, le TCL montre que, lorsque $ n $ augmente, la loi de $ Z=\frac{m-\mathrm{E}\left( X \right) }{\sqrt{\mathrm{var}\left( X \right) /n}} $ converge vers la loi de Gauss (sans autre hypothèse que $ \mathrm{var}\left( X \right) <\infty $). Pour $ n $ assez grand, $ m $ a environ $ 95\% $ de chances de se trouver dans un intervalle de rayon $ 2\sqrt{\frac{\mathrm{var}\left( X \right) }{n}} $ autour de $ \mathrm{E}\left( X \right) $.
    exo 2.  Application aux échantillons formés par $ n=5 $ lancers successifs d'un dé équilibré.
  5. Résultat. La variance $ \sigma _{n}^{2} $ des éléments d'un échantillon de taille $ n $ est une nouvelle variable aléatoire. Son espérance est $ \mathrm{E}\left( \sigma _{n}^{2} \right) =\frac{n-1}{n}\mathrm{var}\left( X \right) $.
    exo 3.  Démontrer ce résultat en partant de $ \mathrm{var}\left( X \right) =\mathrm{E}\left( \frac{1}{n}\sum \left( x_{i}-\mu \right) ^{2} \right) $ et utilisant la formule de Koenig (en effet, $ \mu $ n'est pas la moyenne de l'échantillon).
  6. Théorème : échantillonage de la variance. On définit $ s^{2}=var\_e $ par $ var\_e \doteq \frac{n}{n-1}\sigma _{n}^{2} $. C'est une nouvelle variable aléatoire. Son utilisation comme estimateur de $ \sigma ^{2}=\mathrm{var}\left( X \right) $ est fondée sur les formules :

    $\displaystyle \displaystyle \mathrm{E}\left( var\_e \right) =\mathrm{var}\left(...
...athrm{M}^{4}-\frac{\left( n-3\right) }{\left( n-1\right) }  \sigma ^{4}\right)$ (2)

    $ \mathrm{M}^{4}=\mathrm{E}\left( \left( X-\overline{X}\right) ^{4} \right) $ est le moment d'ordre $ 4 $.
    exo 4.  Application aux échantillons formés par $ n=5 $ lancers successifs d'un dé équilibré.
  7. Remarque : $ s^{2} $ n'est ni la variance de l'échantillon ( $ \sigma _{n}^{2} $), ni la variance de la population ( $ \sigma ^{2} $). La quantité $ s^{2} $ est un estimateur de la variance globale, obtenu à partir de la variance de l'échantillon.


previous up next contents
Previous: Tests d'hypothèses Up: Tests d'hypothèses Next: 2 Loi et test   Contents


douillet@ensait.fr
2002-12-19