previous up next_inactive
Up: Return to previous menu

Ensait - E1 - Stats/Probas

Corrigé du 1er DS - durée 1 h

1 Loi binomiale (durée conseillée : 20 mn)

On considère \( n=8 \) variables de Bernoulli indépendantes \( X_{1},\, X_{2},\, \cdots ,X_{7},\, X_{8} \) chacune d'elles ayant une probabilité de succès \( p\doteq Pr\left( X_{j}=1 \right) =0,2 \). On sait que la variable \( X=X_{1}+X_{2}+\cdots +X_{7}+X_{8} \) suit une loi binomiale.

  1. Donner la formule de \( Pr\left( X=k \right) \).

    On a \( Pr\left( X=k \right) ={8 \choose k}\left( 0.2\right) ^{k}\left( 0.8\right) ^{8-k} \)

  2. Donner les valeurs à trois décimales de \( Pr\left( X=k \right) \) pour \( k=0,\, 1,\, \cdots ,\, 8 \). On donnera les détails des calculs pour \( Pr\left( X=4 \right) \) et on négligera les valeurs inférieures à \( 10^{-3} \).

    1. Pour \( X=4 \), on a \( Pr\left( X=4 \right) =\frac{8.7.6.5}{1.2.3.4}\times \left( 0.2\right) ^{4}\times \left( 0.8\right) ^{4}\approx 0.046 \)
    2. On trouve successivement \( \begin{array}{ccccccccc}
0 & 1 & 2 & 3 & 4 & 5 & 6 & 7 & 8\\
.168 & .336 & .294 & .147 & .046 & .009 & .001 & .000 & .000
\end{array} \). Bien entendu, le total vaut \( 1 \) (en fait on trouve \( 1.001 \) et l'on corrige le nombre "le plus arrondi", ici \( .337 \), que l'on diminue d'un millième.
  3. Rappeler les formules de calcul de l'espérance et de la variance d'une variable aléatoire discrète.

    On a \( \mu =\mathrm{E}\left( X \right) =\sum \, k\, Pr\left( X=k \right) \) et \( \sigma ^{2}=\mathrm{E}\left( X^{2} \right) -\mu ^{2} \)

  4. Utiliser les formules de Q3 et les valeurs de Q2 pour calculer des valeurs approchées \( \mathrm{E}\left( X \right) \) et \( \mathrm{var}\left( X \right) \). Comparer avec les valeurs exactes (rappeler les formules valables pour une variable suivant la loi binomiale). Un histogramme est demandé.

    1. On a donc \( \mu =\left( 0\times .168+1\times .336+2\times .294+\cdots \right) =1.599 \).
    2. De même \( \sigma ^{2}=\left( 0^{2}\times .168+1^{2}\times .336+2^{2}\times .294+\cdots \right) -\mu ^{2}=1.274 \).
    3. Ces valeurs sont à comparer avec les valeurs exactes, qui sont \( \mu =n\, p=1.6 \) et \( \sigma ^{2}=n\, p\, q=1.28 \). La deuxième série de calculs, qui est plus longue, engendre des erreurs d'arrondi plus importantes.
  5. La table ci-dessous donne les valeurs de \( Pr\left( X=x \right) \) pour des variables de Poisson ayant pour paramètres \( 1.2 \), \( 1.4 \) et \( 1.6 \). Quel est le lien entre cette question et les autres ? Quelle est la meilleure valeur possible pour le paramètre ?



      \( x=0 \) \( x=1 \) \( x=2 \) \( x=3 \) \( x=4 \) \( x=5 \) \( x\geq 6 \)
    \( Poiss\left( 1.2\right) \) \( .301 \) \( .361 \) \( .217 \) \( .087 \) \( .026 \) \( .006 \) \( .001 \)
    \( Poiss\left( 1.4\right) \) \( .247 \) \( .345 \) \( .242 \) \( .113 \) \( .039 \) \( .011 \) \( .003 \)
    \( Poiss\left( 1.6\right) \) \( .202 \) \( .323 \) \( .258 \) \( .138 \) \( .055 \) \( .018 \) \( .005 \)

    1. On sait que le comportement limite, pour \( n\rightarrow \infty \), d'une variable binomiale dépend du comportement de \( n\, p \). Dans les cas où \( n\, p\rightarrow \lambda \), le comprtement limite est décrit par une loi de Poisson de paramètre \( \lambda \). Dans le cas où \( \sigma \rightarrow \infty \), le comportement limite de la variable réduite est décrit par la loi normale.
    2. Pour \( n=8 \), on est de toutes les façons loin de \( n\rightarrow \infty \). Le modèle de Poisson n'est pas déraisonnable vu que \( p \) est petit. En ce cas, le choix de \( \lambda =n\, p=1.6 \) est le plus naturel. On constate en tout cas que la ligne \( \lambda =1.6 \) correspond le mieux aux valeurs trouvées précédemment (la Figure1 donne, en gras, la loi exacte -binomiale- et, en grisé, le modèle de Poisson correspondant à \( \lambda =1.6 \)).

    Figure 1: Histogrammes (en gras: la loi exacte).
    \resizebox*{15cm}{6cm}{\includegraphics{stat_ds1_les3lois.eps}}

  6. En appelant \( \mu \left( k\right) \) la valeur de \( Pr\left( X=k \right) \) trouvée à la question 2 et \( \phi \left( k\right) \) la valeur de \( Pr\left( X=k \right) \) correspondant à la loi de Poisson de paramètre \( \lambda =1.2 \), le calcul numérique de \( \varepsilon =\sqrt{\frac{1}{9}\sum _{k=0}^{8}\left( \mu \left( k\right) -\phi \left( k\right) \right) ^{2}} \) donne \( \varepsilon \approx 0.056 \). Est-ce beaucoup ou pas beaucoup ? Autrement dit, à quelle quantité peut-on comparer \( \varepsilon \) pour se faire une opinion ?

    1. On peut comparer à l'écart-type des \( 9 \) valeurs de \( \mu \left( k\right) \) qui est de \( 0.1245 \). L'écart moyen entre la loi exacte et son modèle approché est donc inférieur de plus de moitié à la "variabilité naturelle" de cette loi.
    2. On peut comparer à la valeur de \( \varepsilon \) obtenue pour \( \lambda =1.6 \), qui est \( 0.0178 \) (on retrouve le fait que le choix de \( \lambda =1.6 \) est plus naturel que le choix \( \lambda =1.2 \)).
  7. Compléments de réponses à la question 6

    1. On peut aussi se demander quelle est la valeur de \( \lambda \) qui minimise \( \varepsilon \). On trouve \( \lambda =1.68 \), conduisant à \( \varepsilon _{min}=0.0156 \). Ce léger décalage par rapport à la valeur \( \lambda =n\, p \) est du au fait que la loi de Poisson autorise des valeurs supérieures à \( X=8 \), qui sont évidemment impossibles pour la loi binomiale.
    2. On peut aussi se demander quelle est la valeur de \( \varepsilon \) associée au modèle normal, c'est à dire \( Pr\left( X=k \right) =F\left( z\left( k+0.5\right) \right) -F\left( z\left( k-0.5\right) \right) \), qui donne les valeurs \( .134,\, .299,\, .322,\, .167,\, .041,\, .005,\, .000,\, .000,\, .000 \). On obtient \( \varepsilon _{norm}=0.0202 \), c'est à dire à peine moins bien que le modèle de Poisson optimal. Cela tient au fait que le choix de \( n=8 \) ... permet de faire les calculs en temps limité, mais n'est pas un bon modèle de \( n\rightarrow \infty \) !

    Figure: Détermination de l'optimum de \( \varepsilon \left ( \lambda \right ) \).
    \resizebox*{15cm}{5cm}{\includegraphics{stat_ds1_optim.eps}}

2 Corrélation (durée conseillée : 40 mn)

On considère un couple de variables aléatoires discrètes \( \left( X,\, Y\right) \) dont la distribution de probabilités est donnée par le tableau ci-dessous. Ainsi \( Pr\left( X=3,\, Y=3 \right) =0.05 \).



\( \downarrow y\quad x\rightarrow \) 1 3 4 5
\( 1 \) \( .05 \) \( .05 \) \( .05 \) \( .05 \)
\( 3 \) \( .1 \) \( .05 \) \( .05 \) \( .05 \)
\( 4 \)   \( .1 \) \( .1 \) \( .1 \)



  1. Déterminer \( Pr\left( X=1,\, Y=4 \right) \).

    La somme des probabilités faisant \( 1 \), on voit que \( Pr\left( X=1,\, Y=4 \right) =.25 \).

  2. Que valent \( Pr\left( X=5\mid Y=1 \right) \) et \( Pr\left( X=5\mid Y=2 \right) \) ?

    1. Lorsque \( Y=1 \), les quatre valeurs possibles pour \( X \) sont équiprobables et
      \( Pr\left( X=5\mid Y=1 \right) =1/4=.25 \).
    2. La valeur \( Y=2 \) n'étant pas atteinte, la probabilité conditionnelle n'est pas définie.
  3. Les variables \( X \) et \( Y \) sont-elles indépendantes ?

    Si les variables étaient indépendantes, les conditionnements de \( X \) par les différents \( Y \) seraient identiques. Comme \( Y=1 \) induit la loi uniforme pour \( X \) et que ce n'est pas le cas pour, par exemple, \( Y=3 \) on en conclut qu'il y a dépendance entre les deux variables.

  4. Donner la distribution marginale de \( X \), son espérance et sa variance.

    Le tableau de calcul se présente comme suit.



    \( \downarrow x\quad y\rightarrow \) \( 1 \) \( 3 \) \( 4 \) \( \sum _{y}p \) \( x\sum _{y}p \) \( \sum _{y}\, y\, p \) \( x\sum _{y}\, y\, p \) \( x^{2}\sum _{y}\, p \)
    \( 1 \) \( .05 \) \( .10 \) \( .25 \) \( .40 \) \( .40 \) \( 1.35 \) \( 1.35 \) \( .40 \)
    \( 3 \) \( .05 \) \( .05 \) \( .10 \) \( .20 \) \( .60 \) \( .60 \) \( 1.80 \) \( 1.80 \)
    \( 4 \) \( .05 \) \( .05 \) \( .10 \) \( .20 \) \( .80 \) \( .60 \) \( 2.40 \) \( 3.20 \)
    \( 5 \) \( .05 \) \( .05 \) \( .10 \) \( .20 \)   \( .60 \) \( 3.00 \) \( 5.00 \)
    \( \sum _{x}p \) \( .20 \) \( .25 \) \( .55 \)   \( 1.00 \)     \( 10.40 \)
    \( y\sum _{x}p \) \( .20 \) \( .75 \) \( 2.20 \)     \( 3.15 \)    
    \( \sum _{x}\, x\, p \) \( .65 \) \( .70 \) \( 1.45 \)   \( 2.80 \)      
    \( y\sum _{x}\, p \) \( .65 \) \( 2.10 \) \( 5.80 \)       \( 8.55 \)  
    \( y^{2}\sum _{x}\, p \) \( .20 \) \( 2.25 \) \( 8.80 \) \( 11.25 \)        

    1. On a \( \mathrm{E}\left( X \right) =\sum _{xy}x\, p_{xy} \). Le calcul \( \sum _{x}\left( x\, \sum _{y}p_{xy}\right) \) consiste à obtenir \( \mathrm{E}\left( X \right) \) comme l'espérance de la distribution marginale. C'est le plus facile. Le calcul \( \sum _{y}\left( \sum _{x}\, x\, p_{xy}\right) \) permet de contrôler ce résultat... et aussi de contrôler les \( \sum _{x}\, x\, p \) qui seront utilisés par la suite. On trouve \( \mathrm{E}\left( X \right) =2.8 \).
    2. On trouve \( \mathrm{E}\left( X^{2} \right) =10.40 \) et donc \( \mathrm{var}\left( X \right) =10.40-\left( 2.8\right) ^{2}=2.56 \).
  5. Donner de même la distribution marginale de \( Y \), son espérance et sa variance.

    1. Pour \( \mathrm{E}\left( Y \right) \), les deux modes de calcul donnent \( \mathrm{E}\left( Y \right) =3.15 \).
    2. On obtient en outre \( \mathrm{E}\left( Y^{2} \right) =11.25 \) et donc \( \mathrm{var}\left( Y \right) =11.25-\left( 3.15\right) ^{2}=1.3275 \)
  6. Calculer la covariance de \( X \) et \( Y \) et le coefficient de corrélation linéaire de ces deux variables.

    1. Le tableau donne deux calculs de \( \mathrm{E}\left( X\, Y \right) \), comme \( \sum _{x}\left( x\, \sum _{y}\, y\, p_{xy}\right) \) et comme \( \sum _{y}\left( y\, \sum _{x}\, x\, p_{xy}\right) \). On trouve \( \mathrm{E}\left( XY \right) =8.55 \). D'où \( \mathrm{cov}\left( X,\, Y\right) =8.55-\left( 2.8\times 3.15\right) =-.27 \).
    2. Le coefficient de corrélation est \( r=\frac{\mathrm{cov}}{\sigma _{x}\, \sigma _{y}}=\left( -.27\right) \div \left( 2.56\times 1.3275\right) \approx -.146 \)
  7. Déterminer la droite de tendance \( X\mapsto Y_{prev} \). Reporter tout cela sur un dessin.

    1. On obtient \( a=\frac{\mathrm{cov}}{\mathrm{var}\left( X \right) }\approx -.1055 \), et la droite de tendance s'écrit \( y_{prev}=\mathrm{E}\left( Y \right) +a\left( x-\mathrm{E}\left( X \right) \right) \), soit \( y_{prev}=3.15-0.1055\left( x-2.8\right) \).
    2. La réécriture de ce résultat sous la forme \( y=3.44-0.11x \) est discutable, car \( y=0 \) se situe en dehors de la distribution.

    Figure 3: la_legende_de_la_figure_01
    \resizebox*{10cm}{8cm}{\includegraphics{stat_ds1_regres.eps}}

  8. Obtient-on une réduction de variance significative ?

    Le facteur de réduction de variance est \( 1-r^{2}\approx 0.98 \). Autant dire que la variance n'a pas bougé, c'est à dire que \( X \) n'apporte pas grand chose pour la prévision de \( Y \).


previous up next_inactive
Up: Return to previous menu


douillet@ensait.fr
2002-05-09