previous up next_inactive
Up: Return to previous menu

Ensait - A2 - Tests d'hypothèses


Date: Corrigé du DS du 29/01/2003 (durée 2h00)

Distribution d'échantillon

  1. On considère un ensemble de $ N=20000$ objets manufacturés constituant la production d'un jour donné. On commence par prélever un échantillon de $ n_{1}=65$ objets dans cette population. La moyenne de cet échantillon est $ x_{1}=98$ et son écart-type est $ \sigma _{1}=8$. En déduire un encadrement (à $ 95\%$ de fiabilité) de la moyenne de la population totale (une correction de Fischer n'est pas demandée).
    1. Pour un échantillon de taille suffisante, la variable réduite associée à la moyenne, soit $ z_{1}=\left(x_{1}-x\right)/\left(\sigma /\sqrt{n_{1}}\right)$, suit approximativement une loi normale.
    2. L'encadrement demandé est donc $ x\in \left[x_{1}-k\, \sigma /\sqrt{n_{1}},\: x_{2}+k\, \sigma /\sqrt{n_{1}}\right]$ avec $ k$ facteur de couverture pour la loi normale et une fiabilité de $ 95\%$ et $ \sigma $ écart-type de la population. D'après les tables, $ k=1.96\approx 2$.
    3. La valeur de $ \sigma $ n'est pas connue. Son estimation à partir de l'échantillon est $ s_{1}=\sigma _{1}\sqrt{65/64}$, ce qui revient à utiliser $ s_{1}/\sqrt{64}$ comme écart-type sur l'estimateur $ x_{1}$. En ne tenant pas compte de la correction de Fischer, on trouve :

      $\displaystyle 96.000\leq x\leq 100.000$

  2. On prélève un deuxième échantillon de $ n_{2}=35$ objets dans cette population. La moyenne de cet échantillon est $ x_{2}=102$ et son écart-type est $ \sigma _{2}=7$. En déduire un encadrement (à $ 95\%$ de fiabilité) de la moyenne de la population totale (une correction de Fischer n'est pas demandée). En partant des données du deuxième échantillon, on arrive à :

    $\displaystyle 99.599\leq x\leq 104.401$

  3. On considère l'échantillon constitué de la réunion des deux échantillons précédents. On a évidemment $ n_{0}=100$. Déterminer la moyenne $ x_{0}$ et l'écart-type $ \sigma _{0}$ de cet échantillon.
    1. Les définitions donnent $ \sum _{j}\xi =n_{j}\, x_{j}$ et $ \sum _{j}\xi ^{2}=n_{j}\left(x_{j}^{2}+\sigma _{j}^{2}\right)$, et l'on a évidemment $ \sum _{0}=\sum _{1}+\sum _{2}$.
    2. En résolvant ces équations, il vient :

      $\displaystyle n_{0}=100,\, \, x_{0}=99.4,\, \, \sigma _{0}=7.899$

    3. On peut aussi utiliser la formule

      $\displaystyle \sigma _{0}^{2}=\mathrm{E}\left(\sigma _{j}^{2}\right)+\mathrm{var}\left(x_{j}\right)$

      le premier terme donne $ 58.75$ et le deuxième $ 3.64$, conduisant au même résultat.
  4. On précise maintenant que le premier échantillon a été prélevé le matin, et le second l'après midi. Les données recueillies indiquent-elles une différence significative entre la production du matin et celle de l'après-midi ?
    1. On se demande donc si la différence entre les moyennes $ x_{1}$ et $ x_{2}$ peut être interprétée par la variabilité naturelle d'une population homogène (hypothèse $ H_{0}$), ou bien si cette différence doit être mise au compte d'un autre phénomène (changement significatif).
    2. Remarque : une étude analogue serait à entreprendre pour les variances.
    3. En supposant $ H_{0}$, les variables $ x_{1}et$ $ x_{2}$ sont des variables normales. Et notre meilleure estimation de leurs paramètres de dispersion est $ \left(x_{0},\, s_{0}/\sqrt{n_{1}}\right)$ et $ \left(x_{0},\, s_{0}/\sqrt{n_{2}}\right)$.
    4. La variable $ \delta \doteq x_{1}-x_{2}$ est donc normale et ses paramètres sont

      $\displaystyle \mathrm{E}\left(\delta \right)=0,\; \mathrm{var}\left(\delta \rig...
...(\frac{1}{n_{1}-1}+\frac{1}{n_{2}-1}\right)\approx 2.810=\left(1.676\right)^{2}$

      (on remarquera que les variances s'ajoutent... )
    5. Comme $ \delta =-4$, la variable réduite associée vaut $ z\doteq -4/1.676=-2.38$ et tombe donc dans une zone de probabilité très faible. La différence entre les deux échantillons ne peut donc être mise au compte de la variabilité naturelle d'une population homogène. Elle indique au contraire une différence significative entre la production du matin et celle de l'après-midi.
  5. En supposant que la population est homogène et distribuée normalement, estimer le nombre d'objets (de la population totale) vérifiant $ x<97$.
    1. La variable réduite associée est $ z=\left(97-99.4\right)/7.90\approx -0.3038$.
    2. Les tables de la fonction de répartition donnent $ Pr\left(z\leq -0.3038\right)=1-Pr\left(z\leq +0.3038\right)=0.3806$.
    3. Vu l'effectif total, l'espérance du nombre $ Y$ d'objets vérifiant $ x<97$ est $ 7612$. Son écart-type est donné par la loi binomiale et vaut

      $\displaystyle \sqrt{\mathrm{var}\left(Y\right)}=\sqrt{20000\times .3806\times \left(1-.3806\right)}\approx 68.7$

      Avec un facteur de couverture égal à $ 2$, on obtient $ 7612\pm 137$.
  6. Reprendre la question précédente en supposant que les productions du matin et de l'après-midi ont des effectifs proportionnels à $ n_{1}$ et $ n_{2}$ et sont distribuées normalement (selon des lois différentes). Comparer les deux résultats.
    1. En reprenant les mêmes calculs, on obtient $ z_{1}=\left(97-m_{1}\right)/s_{1}\approx -0.125$. D'où une probabilité $ Pr\left(z\leq -0.125\right)=0.4503$. En considérant que les tailles des échantillons matin/soir étaient proportionnels aux productions matin/soir, on obtient $ N_{1}=13000$ et $ Y_{1}=5853$.
    2. De même, on obtient $ z_{2}=-0.714$ $ p_{2}=.238$ et $ Y_{2}=1663$
    3. On en tire la valeur centrale $ Y_{0}=5853+1663=7516$.
    4. La variance se calcule par somme des variances, et on obtient :

      $\displaystyle \sigma =\sqrt{N_{1}\, p_{1}\left(1-p_{1}\right)+N_{2}\, p_{2}\left(1-p_{2}\right)}\approx 66.97$

    5. Les deux résultats diffèrent de $ 96$ unités (grosso-modo une fois et demi l'écart-type).

Test du $ \chi ^{2}$

  1. Compléter la table ci-dessous, qui donne les valeurs de $ Pr\left(X=k\right)$ lorsque $ X$ suit une loi de Poisson de paramètre $ \lambda =3.5$.
    $ X$ 0 1 2 3 4 5 6 plus
    $ Pr\left(X\right)$ $ .03020$ $ .10569$ $ .18496$ $ .21579$ $ .18881$ $ .13217$ $ .07710$ $ .06529$

    1. On rappelle que $ Pr\left(X=k\right)=\exp \left(-3.5\right)\frac{3.5^{k}}{k\, !}$.
    2. On a donc $ Pr\left(X=0\right)=\exp \left(-3.5\right)\approx 0.03020$, $ Pr\left(X=1\right)=3.5\, Pr\left(X=0\right)\approx 0.10569$ et $ Pr\left(X=3\right)=3.5/3\, Pr\left(X=2\right)\approx .21579$.
    3. On vérifie que la somme est bien égale à $ 1$.
  2. Examiner, par un test du $ \chi ^{2}$, l'hypothèse selon laquelle les $ n=100$ valeurs ci-dessous constituent un échantillon prélevé au sein d'une population régie par une loi de Poisson de paramètre $ \lambda =3.5$.american

    \begin{displaymath}
\begin{array}{rrrrrrrrrrrrrrrrrrrr}
2 & 5 & 2 & 1 & 5 & 3 &...
... & 1 & 8 & 1 & 2 & 1 & 4 & 4 & 1 & 0 & 2 & 5 & 3 & 2\end{array}\end{displaymath}

    1. En collectant les données (et en regroupant les deux premières colonnes, de façon à ce que les espérances des nombres de visites soient toutes supérieures à $ 5$), on obtient le tableau :

      $ X$ 0&1 2 3 4 5 6 7 et plus
      $ 100\times Pr\left(X\right)$ $ 13.589$ $ 18.496$ $ 21.578$ $ 18.881$ $ 13.217$ $ 7.710$ $ 6.529$
      effectif réel $ 28$ $ 22$ $ 23$ $ 17$ $ 7$ $ 2$ $ 1$

    2. Bien entendu, on vérifie que les deux sommes des effectifs donnent $ n=100$.
    3. Un peu de calcul conduit à :

      $\displaystyle \chi ^{2}=\sum \frac{\left(n_{theo}-n_{rel}\right)^{2}}{n_{theo}}=28.063$

    4. Le nombre de degrés de liberté est $ \nu =6$ (sept colonnes, une liaison), et donc

      $\displaystyle \chi _{red}^{2}=\left(28.063-6\right)/\sqrt{12}\approx 6.37$

    5. D'où un rejet absolu de l'hypothèse "loi de Poisson de paramètre $ \lambda =4$".
  3. Examiner l'hypothèse selon laquelle les $ n=100$ valeurs précédentes sont distribuées selon une loi de Poisson (la valeur du paramètre n'étant pas fixé).
    1. La valeur de $ \lambda $ donnant la meilleure vraisemblance à l'hypothèse d'une loi de Poisson est la moyenne de l'échantillon, soit $ \lambda =2.54$.
    2. On aboutit au tableau :
      $ X$ 0 1 2 3 4 5 et plus
      $ 100\times Pr\left(X\right)$ $ 7.887$ $ 20.032$ $ 25.441$ $ 21.540$ $ 13.678$ $ 11.423$
      effectif réel $ 10$ $ 18$ $ 22$ $ 23$ $ 17$ $ 10$

    3. Un peu de calcul conduit à

      $\displaystyle \chi ^{2}=\sum \frac{\left(n_{theo}-n_{rel}\right)^{2}}{n_{theo}}=2.321$

    4. Le nombre de degrés de liberté est $ \nu =4$ (six colonnes et deux liaisons), et donc $ \chi _{red}^{2}=\left(2.321-4\right)/\sqrt{8}\approx -0.59$. L'hypothèse d'une distribution de Poisson est donc tout à fait acceptable.

Corrélation (données simples)

On considère la série de points $ \left(x,\, y\right)$ donnée par :

\begin{displaymath}
\begin{array}{c}
x\\
y\end{array}\begin{array}{ccccccccc...
...2 & 7.18 & 5.86 & 6.48 & 15.05 & 9.55 & 9.69 & 10.56\end{array}\end{displaymath}

  1. Calculer les paramètres de dispersion de cette série de points. On obtient aisément $ \mathrm{E}\left(x\right)=4.245,\, \mathrm{var}\left(x\right)=2.511$, $ \mathrm{E}\left(y\right)=10.668,\, \mathrm{var}\left(y\right)=16.443$ et $ cov=6.373$.
  2. Représentation graphique des points. Visualisation des paramètres de dispersion. On représente les verticales $ 4.245\pm \sqrt{2.511}$ et les horizontales $ 10.668\pm \sqrt{16.443}$
  3. Droite de régression. Visualisation.
    1. La droite de régression affine a pour pente $ a=\frac{6.373}{2.511}\approx 2.538$ et passe par le point moyen $ \left(4.245,\: 10.668\right)$. Son équation est donc $ y=a\, \left(x-\overline{x}\right)+\overline{y}=2.538\, x-.1038$.
    2. Le facteur de réduction de variance est $ FRV=1/\left(1-\frac{\mathrm{cov}^{2}}{\mathrm{var}\left(x\right)\, \mathrm{var}\left(y\right)}\right)\approx 60.46$ et l'écart-type réduit vaut donc $ \sigma _{red}\doteq \sigma /\sqrt{frv}=.272$
    3. On trace deux parallèles à la droite de régression, à une distance verticale égale à l'écart-type réduit, et on obtient la figure voulue.

previous up next_inactive
Up: Return to previous menu


douillet@ensait.fr
2003-06-12