previous up next_inactive
Up: Return to previous menu

Ensait - E2 - Tests d'hypothèses

Corrigé du projet pour le DS du 24/01/2003

1 Distribution d'échantillon

  1. On considère un ensemble de \( N=10000 \) objets manufacturés constituant la production d'un jour donné. On commence par prélever un échantillon de \( n_{1}=30 \) objets dans cette population. La moyenne de cet échantillon est \( x_{1}=102 \) et son écart-type est \( \sigma _{1}=10 \). En déduire un encadrement (à \( 95\% \) de fiabilité) de la moyenne de la population totale.
    1. Pour un échantillon de taille suffisante, la variable réduite associée à la moyenne, soit \( z_{1}=\left( x_{1}-x\right) /\left( \sigma /\sqrt{n_{1}}\right) \), suit approximativement une loi normale.
    2. L'encadrement demandé est donc \( x\in \left[ x_{1}-k  \sigma /\sqrt{n_{1}},\: x_{2}+k  \sigma /\sqrt{n_{1}}\right] \) avec \( k \) facteur de couverture pour la loi normale et une fiabilité de \( 95\% \) et \( \sigma \) écart-type de la population. D'après les tables, \( k=1.96\approx 2 \).
    3. La valeur de \( \sigma \) n'est pas connue. Son estimation à partir de l'échantillon est \( s_{1}=\sigma _{1}\sqrt{30/29} \). En ne tenant pas compte de la correction de Fischer, on trouve :

      \begin{displaymath}
98.36\leq x\leq 105.64\end{displaymath}

  2. On prélève un deuxième échantillon de \( n_{2}=70 \) objets dans cette population. La moyenne de cet échantillon est \( x_{2}=99 \) et son écart-type est \( \sigma _{2}=12 \). En déduire un encadrement (à \( 95\% \) de fiabilité) de la moyenne de la population totale. En partant des données du deuxième échantillon, on arrive à :

    \begin{displaymath}
96.17\leq x\leq 101.83\end{displaymath}

  3. Quelle est l'importance de la correction de Fischer pour les questions 1 et 2 ?
    1. La correction de Fischer consiste à utiliser un facteur de couverture plus large que celui de la loi normale, de façon à tenir compte de l'incertitude supplémentaire introduite par le fait que \( \sigma \) n'est pas connu directement, mais seulement estimé à partir de l'échantillon.
    2. Le nombre de degrés de liberté est ici \( \nu =29 \).
    3. Les tables donnent, pour une fiabilité à \( 95\% \), \( t=2.23 \) pour \( \nu =10 \) et \( t=1.98 \) pour \( \nu =100 \). Une interpolation sur les inverses (pour tenir compte de la décroissance rapide) conduit au système :

      \begin{displaymath}
\left\{ \begin{array}{rcl}
\frac{1}{29} & = & \mu \frac{1}{1...
...   2.23  +  \left( 1-\mu \right)   1.98
\end{array}\right. \end{displaymath}

      soit \( t=2.05 \).
    4. Une meilleure réponse aux deux premières questions est donc :

      \begin{displaymath}
\left\{ \begin{array}{rcl}
98.19\leq x\leq 105.80 & & \\
96.12\leq x\leq 101.88 &
\end{array}\right. \end{displaymath}

    5. Remarque (HS) : un calcul exact, par intégration de la densité, donne respectivement \( t=2.046 \) et \( t=1.995 \).
  4. On considère l'échantillon constitué de la réunion des deux échantillons précédents. On a évidemment \( n_{0}=100 \). Déterminer la moyenne \( x_{0} \) et l'écart-type \( \sigma _{0} \) de cet échantillon.
    1. Les définitions donnent \( \sum _{j}\xi =n_{j}  x_{j} \) et \( \sum _{j}\xi ^{2}=n_{j}\left( x_{j}^{2}+\sigma _{j}^{2}\right) \), et l'on a évidemment \( \sum _{0}=\sum _{1}+\sum _{2} \).
    2. En résolvant ces équations, il vient :

      \begin{displaymath}
n_{0}=100,    x_{0}=99.9,    \sigma _{0}=11.519\end{displaymath}

  5. On précise maintenant que le premier échantillon a été prélevé le matin, et le second l'après midi. Les données recueillies indiquent-elles une différence significative entre la production du matin et celle de l'après-midi ?
    1. On se demande donc si la différence entre les moyennes \( x_{1} \) et \( x_{2} \) peut être interprétée par la variabilité naturelle d'une population homogène (hypothèse \( H_{0} \)), ou bien si cette différence doit être mise au compte d'un autre phénomène (changement significatif).
    2. Remarque : une étude analogue serait à entreprendre pour les variances.
    3. En supposant \( H_{0} \), les variables \( x_{1}et \) \( x_{2} \) sont des variables normales. Et notre meilleure estimation de leurs paramètres de dispersion est \( \left( x_{0},  s_{0}/\sqrt{n_{1}}\right) \) et \( \left( x_{0},  s_{0}/\sqrt{n_{2}}\right) \).
    4. La variable \( \delta \doteq x_{1}-x_{2} \) est donc normale et ses paramètres sont

      \begin{displaymath}
\mathrm{E}\left( \delta \right) =0,\; \mathrm{var}\left( \de...
...}{n_{1}}+\frac{1}{n_{2}}\right) \approx \left( 2.51\right) ^{2}\end{displaymath}

      (on remarquera que les variances s'ajoutent... )
    5. Comme \( \delta =3 \), la variable réduite associée vaut \( z\doteq 3/2.51=1.19 \). On sait qu'il y a grosso-modo une probabilité d'une chance sur trois pour que \( 1<\left\vert z\right\vert \). La différence entre les deux échantillons peut donc être mise au compte de la variabilité naturelle d'une population homogène.
  6. En supposant que la population est homogène et distribuée normalement, estimer le nombre d'objets (de la population totale) vérifiant \( x<98 \).
    1. La variable réduite associée est \( z=\left( 98-99.9\right) /11.519\approx -0.1649 \).
    2. Les tables de la fonction de répartition donnent \( Pr\left( z\leq -0.165 \right) =1-Pr\left( z\leq +0.165 \right) =0.4345 \).
    3. Vu l'effectif total, l'espérance du nombre \( Y \) d'objets vérifiant \( x<98 \) est \( 4345 \). Son écart-type est donné par la loi binômiale et vaut \( \sqrt{\mathrm{var}\left( Y \right) }=\sqrt{10000\times .4345\times \left( 1-.4345\right) }\approx 49.5 \). Avec un facteur de couverture égal à \( 2 \), on obtient \( 4345\pm 99 \).
  7. Reprendre la question précédente en supposant que les productions du matin et de l'après-midi sont distribuées normalement (selon des lois différentes). Comparer les deux résultats.
    1. En reprenant les mêmes calculs, on obtient \( z_{1}=\left( 98-m_{1}\right) /s_{1}\approx -0.40 \). D'où une probabilité \( Pr\left( z\leq -0.40 \right) =0.3446 \). En considérant que les tailles des échantillons matin/soir étaient proportionnels aux productions matin/soir, on obtient \( N_{1}=3000 \) et \( Y_{1}=1034 \).
    2. De même, on obtient \( z_{2}=-0.083 \) et \( Y_{2}=3267 \)
    3. On en tire la valeur centrale \( Y_{0}=1034+3267=4301 \). Ce nombre n'est pas égal au \( Y \) précédemment obtenu, mais se situe dans l'intervalle de confiance.
    4. Il est naturel que l'on obtienne des résultats comparables, puisque les productions matin/soir ne sont pas sensiblement différentes.

2 Test du \( \chi ^{2}\)

  1. Compléter la table ci-dessous, qui donne les valeurs de \( Pr\left( X=k \right) \) lorsque \( X \) suit une loi de Poisson de paramètre \( \lambda =3 \).
    \( X \) 0 1 2 3 4 5 6 plus
    \( Pr\left( X \right) \) \( \quad \quad \) \( \quad \quad \) \( \quad \quad \) \( .22404 \) \( .16803 \) \( .10082 \) \( .05041 \) \( .03351 \)
    1. On rappelle que \( Pr\left( X=k \right) =\exp \left( -3\right) \frac{3^{k}}{k  !} \).
    2. On a donc \( Pr\left( X=0 \right) =\exp \left( -3\right) \approx 0.04978 \), \( Pr\left( X=1 \right) =3  Pr\left( X=0 \right) \approx 0.14936 \) et \( Pr\left( X=2 \right) =\frac{9}{2}Pr\left( X=0 \right) \approx .022404 \).
  2. Examiner, par un test du \( \chi ^{2}\), l'hypothèse selon laquelle les \( n=100 \) valeurs ci-dessous constituent un échantillon prélevé au sein d'une population régie par une loi de Poisson de paramètre \( \lambda =3 \).

    \begin{displaymath}
\begin{array}{rrrrrrrrrrrrrrrrrrrr}
5 & 8 & 6 & 7 & 4 & 1 & ...
...& 1 & 3 & 7 & 4 & 3 & 5 & 5 & 7 & 7 & 6 & 2 & 3 & 3
\end{array}\end{displaymath}

    1. En collectant les données (et en regroupant les deux dernières colonnes, de façon à ce que les espérances des nombres de visites soient toutes supérieures à \( 5 \)), on obtient le tableau :
      \( X \) 0 1 2 3 4 5 6 et plus
      \( 100\times Pr\left( X \right) \) \( 4.978 \) \( 14.936 \) \( 22.404 \) \( 22.404 \) \( 16.803 \) \( 10.082 \) \( 8.392 \)
      effectif réel \( 0 \) \( 12 \) \( 11 \) \( 21 \) \( 16 \) \( 15 \) \( 25 \)

    2. Un peu de calcul conduit à

      \begin{displaymath}
\chi ^{2}=\sum \frac{\left( n_{theo}-n_{rel}\right) ^{2}}{n_{theo}}=46.76\end{displaymath}

    3. Le nombre de degrés de liberté est \( \nu =6 \), et donc

      \begin{displaymath}
\chi _{red}^{2}=\left( 46.76-6\right) /\sqrt{12}\approx 11.76\end{displaymath}

    4. D'où un rejet absolu de l'hypothèse "loi de Poisson de paramètre \( \lambda =3 \)".
  3. Examiner l'hypothèse selon laquelle les \( n=100 \) valeurs précédentes sont distribuées selon une loi de Poisson (la valeur du paramètre n'étant pas fixé).
    1. La valeur de \( \lambda \) donnant la meilleure vraisemblance à l'hypothèse d'une loi de Poisson est la moyenne de l'échantillon, soit \( \lambda =4.02 \).
    2. On aboutit au tableau :
      \( X \) 0 ou 1 2 3 4 5 6 7 et plus
      \( 100\times Pr\left( X \right) \) \( 9.012 \) \( 14.506 \) \( 19.439 \) \( 19.536 \) \( 15.707 \) \( 10.523 \) \( 11.277 \)
      effectif réel \( 12 \) \( 11 \) \( 21 \) \( 16 \) \( 15 \) \( 15 \) \( 10 \)

    3. Un peu de calcul conduit à

      \begin{displaymath}
\chi ^{2}=\sum \frac{\left( n_{theo}-n_{rel}\right) ^{2}}{n_{theo}}=4.684\end{displaymath}

    4. Le nombre de degrés de liberté est \( \nu =6 \), et donc \( \chi _{red}^{2}=\left( 4.684-6\right) /\sqrt{12}\approx -0.38 \). L'hypothèse d'une distribution de Poisson est donc tout à fait acceptable.

3 Corrélation (données simples)

On considère la série de points :
\( [4.11,  12.6],  [5.73,  12.8],  [5.47,  11.2],  [5.16,  11.9],  [2.44,  9.58] \)
\( [6.98,  16.9],  [2.94,  7.59],  [4.34,  12.5],  [2.47,  8.14],  [6.16,  16.8] \)
  1. Calculer les paramètres de dispersion de cette série de points. On obtient aisément \( \mathrm{E}\left( x \right) =4.58,  \mathrm{var}\left( x \right) =2.271 \), \( \mathrm{E}\left( y \right) =12.00,  \mathrm{var}\left( y \right) =8.915 \) et \( cov=3.965 \).
  2. Représentation graphique des points. Visualisation des paramètres de dispersion. On représente les verticales \( 4.58\pm \sqrt{2.271} \) et les horizontales \( 12.00\pm \sqrt{8.915} \)
  3. Droite de régression. Visualisation.
    1. La droite de régression affine a pour pente \( a=\frac{3.965}{2.271}\approx 1.746 \) et passe par le point moyen \( \left( 4.58,\: 12.00\right) \)
    2. Le facteur de réduction de variance est \( FRV=1/\left( 1-\frac{\mathrm{cov}^{2}}{\mathrm{var}\left( x \right)   \mathrm{var}\left( y \right) }\right) \approx 4.474 \)
    3. On trace deux parallèles à la droite de régression, à une distance verticale égale à l'écart-type réduit

previous up next_inactive
Up: Return to previous menu


douillet@ensait.fr
2003-01-24