previous up next_inactive
Up: Return to previous menu

Ensait - E2 - Tests d'hypothèses

Corrigé du DS du 31/05/2002 - durée 2h00

1 Calculs élémentaires

  1. Dans une certaine population, la probabilité qu'une personne choisie au hasard ait une veste verte est \( Pr\left( A \right) =0.5 \), tandis que la probabilité qu'une personne choisie au hasard ait des chaussures noires est \( Pr\left( B \right) =0.3 \). On suppose en outre que la probabilité pour qu'un individu ne porte ni veste verte ni chaussures noires est \( 0.4 \). Déterminer la probabilité pour qu'un individu sélectionné au hasard ait à la fois une veste verte et des chaussures noires, puis la probabilité pour qu'un individu sélectionné au hasard porte une veste verte sachant qu'il a des chaussures noires.

    1. L'énoncé donne trois valeurs (en gras dans le tableau), et le cours donne le fait que la probabilité totale vaut \( 1 \). On complète de proche en proche.

        \( vv \) \( \overline{vv} \)  
      \( cn \) 0.20 0.10 0.30
      \( \overline{cn} \) 0.30 0.40 0.70
        0.50 0.50 1.00
       

    2. On peut alors lire la probabilité pour qu'un individu sélectionné au hasard ait à la fois une veste verte et des chaussures noires vaut \( 0.20 \).
    3. La probabilité conditionnelle \( Pr\left( vv\mid cn \right) \) se calcule par la formule
      \( Pr\left( vv\mid cn \right) =\frac{Pr\left( vv\, et\, cn \right) }{Pr\left( cn \right) }=\frac{0.20}{0.30}=0.67 \), soit deux chances sur trois.
  2. Utiliser les tables de la loi normale pour déterminer \( Pr\left( 15<X \right) \) lorsque \( X \) est une v.a. \( Norm\left( \mu =20\, ;\, \sigma =3\right) \). Quel est l'intervalle de confiance à \( 5\% \) (centré autour de la moyenne) pour cette distribution ?

    1. L'intervalle de confiance au risque de \( 5\% \) est \( \left[ \mu \pm 2\sigma \right] =\left[ 20\pm 6\right] =\left[ 14\, ;\, 26\right] \).
    2. Pour utiliser les tables, on passe par la variable réduite \( z=\frac{x-\mu }{\sigma }=\frac{-5}{3}=-1.667 \). On lit sur la table que \( Pr\left( z<1.66 \right) =0.9515 \) et \( Pr\left( z<1.67 \right) =0.9525 \). On a donc \( Pr\left( z<1.667 \right) \approx 0.9522 \). Par symétrie, \( Pr\left( 15<X \right) =Pr\left( -1.667<z \right) =0.9522 \).
  3. On mélange une population de \( N_{1}=35 \) individus, ayant une moyenne \( \mu _{1}=14 \) et un écart-type \( \sigma _{1}=3 \) avec une population de \( N_{2}=15 \) individus, ayant une moyenne \( \mu _{2}=11 \) et un écart-type \( \sigma _{2}=2 \). Déterminer la moyenne et l'écart-type de la population totale.

    1. On a \( N=N_{1}+N_{2}=50 \). Puis \( \mathrm{E}\left( X \right) =\frac{1}{N}\left( N_{1}\mu _{1}+N_{2}\mu _{2}\right) \) soit \( \mathrm{E}\left( X \right) =\frac{1}{50}\left( 35\times 14+15\times 11\right) =13.1 \).
    2. Enfin \( \sigma ^{2}=\frac{1}{N}\left( N_{1}\sigma ^{2}_{1}+N_{2}\sigma ^{2}_{2}\right) +\mathrm{var}\left( \mu _{j} \right) \). Le premier terme vaut
      \( \frac{1}{50}\left( 35\times 9+15\times 4\right) =7.5 \) et le deuxième \( \frac{1}{50}\left( 35\times \left( 0.9\right) ^{2}+15\times \left( 2.1\right) ^{2}\right) =1.89 \). D'où \( \sigma ^{2}=9.39 \) et \( \sigma =3.06 \).
  4. Un pressing traite des vêtements ordinaires et des vêtements fragiles. Sur l'année écoulée, \( 60\% \) des vêtements traités étaient dans la catégorie "fragile". Parmi ceux-ci, \( 30\% \) nécessitaient un détachage préalable et tandis que seulement \( 20\% \) des "ordinaires" ont eu besoin d'un détachage. Si l'on sait qu'un certain article (choisi au hasard) n'a pas eu besoin d'un détachage, quel est la probabilité qu'il s'agisse d'un article fragile ?

    1. On applique la méthode des vestes vertes, et on trouve le tableau ci-dessous.

        \( \overline{d} \) \( d \)  
      \( f \) 0.42 0.60\( \times \)0.30 0.60
      \( \overline{f} \) 0.32 0.40\( \times \)0.20 0.40
        0.74 0.26 1.00
       

    2. Vérification : on constate que les deux modes de calculs (en ligne et en colonne) de la case 0.26 donnent le même résultat.
    3. La valeur de \( Pr\left( f\mid \overline{d} \right) \) est \( \frac{Pr\left( f\, et\, \overline{d} \right) }{Pr\left( \overline{d} \right) }=\frac{0.42}{0.74}\approx 0.57 \), soit quatre chances sur sept.

2 Intervalles de confiance

  1. On joue \( n \) fois de suite à pile ou face avec une pièce équilibrée. Déterminer \( n \) pour que la fréquence expérimentale de réussite ait \( 95\% \) de chances de se situer dans l'intervalle \( \left[ 0.47,\, 0.52\right] \).

    1. On commence par traiter le problème relatif à l'intervalle \( \left[ 0.475,\, 0.525\right] \) qui, lui, est centré sur la moyenne (avec la même amplitude). Avec la "règle des deux sigmas", cela donne \( 2\sigma =0.025 \).
    2. Comme \( \sigma ^{2}=\mathrm{var}\left( \overline{x} \right) =\frac{1}{n}\mathrm{var}\left( x \right) =\frac{1}{n}\times 0.25 \), on a \( 4\sigma ^{2}=\left( 0.025\right) ^{2}=4\times \frac{1}{n}\times 0.25 \) et donc \( n=1600 \).
    3. Pour cette valeur de \( n \), l'intervalle \( \left[ 0.47,\, 0.52\right] \) n'est pas l'intervalle \( \left[ -2\sigma ,\, +2\sigma \right] \), mais l'intervalle \( \left[ -2.4\sigma ,\, +1.6\sigma \right] \) dont la probabilité (cf tables de la loi normale...) est \( 0.9452-0.0082\approx 0.937 \). Soit un seuil d'échec de \( 6.3\% \). Il convient donc d'augmenter "un peu" le nombre d'essais.
    4. Une résolution numérique de l'équation \( \int _{-3u}^{+2u}gauss\left( t\right) \, \mathrm{d}t=0.95 \) donne \( u\approx 0.8498 \) et donc \( n\approx \left( 0.8498/0.02\right) ^{2}\approx 1805 \). Réponse définitive \( n\approx 1800 \).
  2. On désigne par \( X\in \left\{ 1,\, 2,\, 3,\, 4,\, 5,\, 6\right\} \) le résultat obtenu en lançant un dé équilibré. On rappelle que \( \overline{X}\doteq \mathrm{E}\left( X \right) =\frac{7}{2}=3.5 \), \( \sigma ^{2}\doteq \mathrm{E}\left( \left( X-\overline{X}\right) ^{2} \right) =\frac{35}{12}\approx 2.92 \) et \( \mu ^{4}=\mathrm{E}\left( \left( X-\overline{X}\right) ^{4} \right) =\frac{707}{48}\approx 14.73 \). On lance \( n=1000 \) fois de suite un dé équilibré, puis l'on calcule la moyenne \( moy_{e} \) et la variance \( var_{e} \) des valeurs obtenues. Quel est l'intervalle de confiance à \( 95\% \) pour ces deux variables aléatoires ?

    1. On a \( \mathrm{E}\left( moy_{e} \right) =\overline{X}=3.5 \) et \( \mathrm{var}\left( moy_{e} \right) =\frac{1}{n}\sigma ^{2} \). L'écart-type est donc \( \sqrt{\frac{1}{1000}\times 2.92}\approx 0.054 \). Comme \( moy_{e} \) suit quasiment une loi normale, on obtient un encadrement au seuil de \( 5\% \) avec la "règle des deux sigmas" soit \( \left[ 3.5\pm 0.108\right] =\left[ 3.4\, ;\, 3.6\right] \).
    2. On a \( \mathrm{E}\left( var_{e} \right) =\sigma ^{2}=2.92 \) et \( \mathrm{var}\left( var_{e} \right) =\frac{1}{n}\left( \mu ^{4}-\sigma ^{4}\right) \). Les divers termes correcteurs, étant en \( \mathrm{O}\left( \frac{1}{n}\right) \) sont tout à fait négligeables dans la présente situation. L'écart-type est donc \( \sqrt{\frac{1}{1000}\times \left( 14.73-2.92^{2}\right) }\approx 0.079 \). Comme \( var_{e} \) suit quasiment une loi normale, on obtient un encadrement au seuil de \( 5\% \) avec la "règle des deux sigmas" soit \( \left[ 2.92\pm 0.158\right] =\left[ 2.76\, ;\, 3.08\right] \)
  3. On prélève un échantillon de \( N_{1}=35 \) individus dans une première population \( P_{1} \). La moyenne et l'écart-type de cet échantillon se trouvent être \( \mu _{1}=14 \) et \( \sigma _{1}=3 \). On prélève un échantillon de \( N_{2}=15 \) individus dans une deuxième population \( P_{2} \). La moyenne et l'écart-type de cet échantillon se trouvent être \( \mu _{2}=11 \) et \( \sigma _{2}=2 \). Ces mesures permettent-elles de rejeter l'hypothèse que "les deux populations ont la même moyenne" ?

    1. Considérons les deux variables aléatoires \( \mu _{j} \) "moyennes d'échantillon" relatives aux deux populations. Il est clair que ces deux variables sont indépendantes. Leurs variances respectives sont \( \frac{1}{N_{1}}\mathrm{var}\left( X_{1} \right) \) et \( \frac{1}{N_{2}}\mathrm{var}\left( X_{2} \right) \). Leur différence \( \delta =\mu _{1}-\mu _{2} \) a donc pour variance \( \mathrm{var}\left( \delta \right) =\frac{1}{N_{1}}\mathrm{var}\left( X_{1} \right) +\frac{1}{N_{2}}\mathrm{var}\left( X_{2} \right) \). Notre meilleure estimation pour \( \mathrm{var}\left( \delta \right) \) est \( \frac{1}{34}\times 3^{2}+\frac{1}{14}\times 2^{2}\approx 0.55 \).
    2. L'hypothèse à tester est que \( H_{0}\, :\, \mathrm{E}\left( X_{1} \right) -\mathrm{E}\left( X_{2} \right) =\mathrm{E}\left( \delta \right) =0 \). Or la valeur expérimentale de cette différence est \( \delta =2 \), soit près de quatre fois l'écart-type. Ce qui conduit à un franc rejet de l'hypothèse.

3 Test du \( \chi ^{2}\)

  1. Compléter la table ci-dessous, qui donne les valeurs de \( Pr\left( X=k \right) \) lorsque \( X \) suit une loi de Poisson de paramètre \( \lambda =3 \).

    \( X \) 0 1 2 3 4 5 6 plus
    \( Pr\left( X \right) \) .04979 .14936 .22404 \( .22404 \) \( .16803 \) \( .10082 \) \( .05041 \) \( .03351 \)

  2. Examiner, par un test du \( \chi ^{2}\), l'hypothèse selon laquelle les \( n=100 \) valeurs ci-dessous constituent un échantillon prélevé au sein d'une population régie par une loi de Poisson de paramètre \( \lambda =3 \).

    \begin{displaymath}
\begin{array}{rrrrrrrrrrrrrrrrrrrr}
5 & 8 & 6 & 7 & 4 & 1 & ...
...& 1 & 3 & 7 & 4 & 3 & 5 & 5 & 7 & 7 & 6 & 2 & 3 & 3
\end{array}\end{displaymath}

    1. On commence par regrouper les données. On trouve :

      \( j \) 0 1 2 3 4 5 6 7 8 9 10
      \( n_{j} \) 0 12 11 21 16 15 15 7 1 1 1

    2. On trouve une moyenne \( moy_{e}=4.02 \). Selon l'hypothèse \( H_{0} \), on aurait \( \mathrm{E}\left( moy_{e} \right) =\lambda =3 \) et \( \mathrm{var}\left( moy_{e} \right) =\frac{1}{100}\lambda =0.03 \). La variable réduite associée est \( 1.02\div \sqrt{0.03}\approx 5.8 \). Dans le contexte, un comportement normal est à attendre, d'où un fort rejet.
    3. Pour ce qui est d'un test du \( \chi ^{2}\), il convient que chaque classe soit visitée au moins \( 5 \) fois. On crée donc une classe "6 et plus". Le calcul donne \( \chi ^{2}=\sum \frac{\left( th_{j}-n_{j}\right) ^{2}}{th_{j}}=46.75 \).

      \( j \) 0 1 2 3 4 5 6+
      \( th_{j} \) 4.979 14.936 22.404 \( 22.404 \) \( 16.803 \) \( 10.082 \) \( 8.392 \)
      \( n_{j} \) 0 12 11 21 16 15 25

    4. Le nombre de degrés de liberté à prendre en compte est ici le nombre de classes moins un soit \( \nu =6 \). On obtient donc \( \left( 46.75-6\right) /\sqrt{12}\approx 11.19 \) comme valeur de \( \chi ^{2}_{red} \) (sous l'hypothèse \( H_{0} \)). On aboutit à nouveau à un fort rejet.
  3. Examiner l'hypothèse selon laquelle les \( n=100 \) valeurs précédentes sont distribuées selon une loi de Poisson (la valeur du paramètre n'étant pas fixé).


previous up next_inactive
Up: Return to previous menu


douillet@ensait.fr
2002-06-07