previous up next contents
Previous: 1 Distributions statistiques univariées Up: Statistiques pour l'ingénieur Next: 3 Probabilités   Contents

Subsections

2 Distributions bivariées

2.1 Tableau de contingence

  1. Définition : distribution bivariée. On recense deux caractères. Les mesures sont donc formées de couples $ \left( x,  y\right) $.
  2. Définition : DO. Il s'agit de la série brute des données recensées.
  3. Définition : DG et tableau de contingence. On regroupe les données de chaque sorte (les $ x$ et les $ y$) en classes. Et on présente le tout dans un tableau, le tableau de contingence.
  4. Notations. Nous allons suivre l'exemple donné par le tableau ci-dessous :



    $ \downarrow x\quad y\rightarrow $ $ \left] 0,  2\right] $ $ \left] 2,  4\right] $ $ \left] 4,  6\right] $
    $ 1 $ $ 4 $ $ 5 $ $ 2 $
    $ 2 $ $ 8 $ $ 7 $ $ 3 $
    $ 3 $ $ 2 $ $ 2 $ $ 1 $



    1. Le caractère $ x$ est mesuré par des valeurs isolées (caractère discret), les $ y$ sont mesurés par des intervalles (caractère continu, discrétisé pour les besoins de la mesure, ou bien par raison de simplification du recensement)
    2. Nous indexons les $ x$ par la lettre $ j $ et ici $ j\in \left\{ 1,  2,  3\right\} $. Nous indexons les $ y$ (plus précisément : les centres de classes) par la lettre $ k $ et ici $ k\in \left\{ 1,  2,  3\right\} $. Ainsi $ y_{2}=3 $ (il serait plus correct d'écrire $ \widetilde{y_{2}}=3 $).
    3. L'effectif total se note $ N $ (ici $ N=34 $) et l'effectif de chaque case se note $ n_{jk} $. Ainsi $ n_{1;3}=2 $ veut dire que le recensement a trouvé, dans la population $ \Omega $, $ 2 $ individus tels que $ x=1 $ et $ 4<y\leq 6 $.
  5. Définition : distribution marginale. S'appelle ainsi parce qu'on note les valeurs correspondantes dans les marges du tableau. Il s'agit de la distribution de $ x$ seul (en oubliant les valeurs de $ y$), ou de la distribution de $ y$ seul. Les effectifs marginaux se notent : $ n_{j*}=\sum _{k}n_{j  k} $ et $ n_{*k}=\sum _{j}n_{j  k} $. Les fréquences marginales sont $ f_{j*}=\frac{1}{N}n_{j*} $ et $ f_{*k}=\frac{1}{N}n_{*k} $.



    $ \downarrow x\quad y\rightarrow $ $ \left] 0,  2\right] $ $ \left] 2,  4\right] $ $ \left] 4,  6\right] $ $ n_{j*} $
    $ 1 $ $ 4 $ $ 5 $ $ 2 $ $ 11 $
    $ 2 $ $ 8 $ $ 7 $ $ 3 $ $ 18 $
    $ 3 $ $ 2 $ $ 2 $ $ 1 $ $ 5 $
    $ n_{*k} $ $ 14 $ $ 14 $ $ 6 $ $ 34 $



  6. Ruse technique. Le calcul des paramètres de dispersion des deux distributions marginales requiert le calcul des quantités $ \sum _{jk}n_{jk} $, $ \sum _{jk}x_{j}  n_{jk} $, $ \sum _{jk}x_{j}^{2}  n_{jk} $, $ \sum _{jk}y_{k}  n_{jk} $ et $ \sum _{jk}y_{k}^{2}  n_{jk} $. On utilise deux méthodes différentes, de façon à contrôler les résultats obtenus.



    $ \downarrow x\quad y\rightarrow $ $ \left] 0,  2\right] $ $ \left] 2,  4\right] $ $ \left] 4,  6\right] $ $ n_{j*} $ $ x_{j}  n_{j*} $ $ \sum _{k}y_{k}  n_{jk} $
    $ 1 $ $ 4 $ $ 5 $ $ 2 $ $ 11 $ $ 11 $ $ 29 $
    $ 2 $ $ 8 $ $ 7 $ $ 3 $ $ 18 $ $ 36 $ $ 44 $
    $ 3 $ $ 2 $ $ 2 $ $ 1 $ $ 5 $ $ 15 $ $ 13 $
    $ n_{*k} $ $ 14 $ $ 14 $ $ 6 $ $ 34 $    
    $ y_{k}  n_{*k} $ $ 14 $ $ 42 $ $ 30 $     $ 86 $
    $ \sum _{j}x_{j}  n_{jk} $ $ 26 $ $ 25 $ $ 11 $   $ 62 $  



  7. De là $ \mathrm{moy}\left( x \right) =62/34\approx 1.82 $, $ \mathrm{moy}\left( x^{2} \right) =\left( 1^{2}\times 11+2^{2}\times 18+3^{2}\times 5\right) \div 34=128/34 $ et donc $ \mathrm{var}\left( x \right) =\frac{128}{34}-\left( \frac{62}{34}\right) ^{2}\approx 0.44 $.
    Et de même $ \mathrm{moy}\left( y \right) =86/34\approx 2.53 $, $ \mathrm{moy}\left( y^{2} \right) =\left( 1^{2}\times 14+3^{2}\times 14+5^{2}\times 6\right) \div 34=290/34 $ et $ \mathrm{var}\left( y \right) =\frac{290}{34}-\left( \frac{86}{34}\right) ^{2}\approx 2.13 $.

2.2 Indépendance complète

  1. Caveat : ne pas confondre avec indépendance linéaire.
  2. Définition : distribution conditionnelle. La distribution d'une modalité conditionnée par une valeur effectivement atteinte par l'autre modalité est la distribution de la sous-population correspondante. Ainsi, la distribution en fréquence de $ y$ conditionnée par $ x=1 $ est $ \left[ \frac{4}{11},  \frac{5}{11},  \frac{2}{11}\right] $. Celle conditionnée par $ x=2 $ est $ \left[ \frac{8}{18},  \frac{7}{18},  \frac{3}{18}\right] $.
  3. Définition : indépendance complète. On dit que $ x$ et y sont complètement indépendantes lorsque toutes les distributions de $ y$ conditionnées par les diverses valeurs de $ x$ sont égales entre elles.
    exo 12.  Montrer que ces distributions sont alors égales à la distribution marginale.
    exo 13.  Montrer que cette relation est symétrique en $ x$ et $ y$.
    exo 14.  Montrer que l'on peut alors reconstituer le tableau de contingence à partir des distributions marginales.

2.3 Droite de régression

  1. Objectif. On cherche $ y_{prev}=\alpha x+\beta $ telle que $ \mathrm{var}\_\mathrm{reduite}  \left( y\right) \doteq \mathrm{moy}\left( \left( y-y_{prev}\right) ^{2} \right) $ soit minimale.
  2. Définition : covariance. On pose $ \mathrm{cov}  {}(x,  y)=\mathrm{moy}\left( \left( x  -\mathrm{moy}\left( x \right) \right) \left( y-\mathrm{moy}\left( y \right) \right) \right) $.
  3. Résultat. On remarquera la disparition de $ \beta $ qui n'a pas forcément de signification (lorsque $ x=0 $ n'est pas réaliste).

    $\displaystyle y_{prev}=\mathrm{moy}\left( y \right) +\alpha \left( x-\mathrm{mo...
... avec\: \alpha =\frac{\mathrm{cov}  {}(x,  y)}{\mathrm{var}\left( x \right) }$ (1)

  4. Calcul effectif. On complète le tableau précédent. On remarquera que la ligne $ \sum _{j}  x_{j}  n_{jk} $ n'est plus seulement un élément de vérification du calcul de $ \sum _{j  k}  x_{j}  n_{jk} $, mais est un élément indispensable pour le calcul de $ \sum _{j  k}  x_{j}  y_{k}  n_{jk} $.



    $ \downarrow x\quad y\rightarrow $ $ \left] 0,  2\right] $ $ \left] 2,  4\right] $ $ \left] 4,  6\right] $ $ n_{j*} $ $ x_{j}  n_{j*} $ $ \sum _{k}  y_{k}  n_{jk} $ $ x_{j}  \sum _{k}  y_{k}  n_{jk} $
    $ 1 $ $ 4 $ $ 5 $ $ 2 $ $ 11 $ $ 11 $ $ 29 $ $ 29 $
    $ 2 $ $ 8 $ $ 7 $ $ 3 $ $ 18 $ $ 36 $ $ 44 $ $ 88 $
    $ 3 $ $ 2 $ $ 2 $ $ 1 $ $ 5 $ $ 15 $ $ 13 $ $ 39 $
    $ n_{*k} $ $ 14 $ $ 14 $ $ 6 $ $ 34 $      
    $ y_{k}  n_{*k} $ $ 14 $ $ 42 $ $ 30 $     $ 86 $  
    $ \sum _{j}  x_{j}  n_{jk} $ $ 26 $ $ 25 $ $ 11 $   $ 62 $    
    $ y_{k}  \sum _{j}x_{j}  n_{jk} $ $ 26 $ $ 75 $ $ 55 $       $ 156 $



  5. Dans l'exemple, $ \mathrm{moy}\left( x  y \right) =156/34 $, d'où $ \mathrm{cov}  {}\frac{156}{34}-\frac{62}{34}\frac{86}{34}\approx -0.024 $. De là $ \alpha =\frac{\mathrm{cov}  }{\mathrm{var}\left( x \right) }\approx -0.055 $ et la droite de régression est $ y_{prev}\approx 2.13-0.055\left( x-1.82\right) $.
  6. On peut faire la même chose dans le sens $ y$ vers $ x$. Cela donne le même coefficient de corrélation, mais les droites de tendance ne sont pas les mêmes.

2.4 Indépendance linéaire

  1. Caveat : ne pas confondre avec indépendance totale.
  2. Théorèmes. Sur l'espace des variables, la moyenne est une forme linéaire. Sur l'espace des variables centrées, la variance est une forme quadratique, dont la covariance est la polarisée. On a donc :
    $\displaystyle \mathrm{moy}\left( a  x+b  y \right)$ $\displaystyle =$ $\displaystyle a  \mathrm{moy}\left( x \right) +b  \mathrm{moy}\left( y \right)$  
    $\displaystyle \mathrm{var}\left( a  x+b  y \right)$ $\displaystyle =$ $\displaystyle a^{2}  \mathrm{var}\left( x \right) +b^{2}  \mathrm{var}\left( y \right) +2a  b  \mathrm{cov}  {}(x,  y)$  

  3. Formule de calcul (Koenig). On a $ \mathrm{cov}  {}(x,  y)=\mathrm{moy}\left( x  y \right) -\mathrm{moy}\left( x \right) \times \mathrm{moy}\left( y \right) $.
  4. Définition : coefficient de corrélation. On pose $ r=\frac{\mathrm{cov}  {}(x,  y)}{\sigma _{x}  \sigma _{y}} $. Ce coefficient est une grandeur sans dimensions (c'est à dire un nombre).

    exo 15.  Montrer $ r $ est toujours compris dans l'intervalle $ \left[ -1  ;  +1\right] $.

  5. Réduction de variance. L'intervention du caractère $ x$ permet d'expliquer $ r^{2} $ % de la variance du caractère $ y$. On a en effet

    $\displaystyle \mathrm{var}\_\mathrm{reduite}  \left( y\right) =\left( 1-r^{2}\...
...ht) ,\quad avec\: r=\frac{\mathrm{cov}  {}(x,  y)}{\sigma _{x}  \sigma _{y}}$

  6. Définition. L'indépendance linéaire est $ \mathrm{cov}  {}(x,  y)=0 $.
  7. Théorème : en cas d'indépendance linéaire, on a $ \mathrm{var}\left( x+y \right) =\mathrm{var}\left( x \right) +\mathrm{var}\left( y \right) $.
  8. Dans l'exemple, on a $ r^{2}=\frac{\mathrm{cov}  }{\mathrm{var}\left( x \right)   \mathrm{var}\left( y \right) }\approx 0.0006 $ . Le caractère $ x$ intervient dans $ 0.06  \% $ de la variance de $ y$ : les caractères $ x$ et $ y$ sont linéairement indépendants.
    exo 16.  On considère les $ 7 $ couples définis par $ x=-3,  -2,  -1,  0,  +1,  +2,  +3 $ et par $ y=x^{2} $. Poser les calculs et conclure.

2.5 Liste d'exercices (en cours)

www.obs-vlfr.fr/enseigne/maitp6/poly_exo/corrregr.htm  : Maîtrise BPE (upmc)

2.5.1 Régression affine (1)

exo 17.  On considère la série de points :
$ [4.11,  12.6],  [5.73,  12.8],  [5.47,  11.2],  [5.16,  11.9],  [2.44,  9.58] $
$ [6.98,  16.9],  [2.94,  7.59],  [4.34,  12.5],  [2.47,  8.14],  [6.16,  16.8] $

  1. Les sommes valent :

    \begin{displaymath}
\begin{array}{c}
\sum 1=10,  \sum x=45.80,  \sum y=120.01\...
...4712,  \sum x  y=589.2936,  \sum y^{2}=1529.3941
\end{array}\end{displaymath}

  2. Les paramètres de dispersion valent

    $\displaystyle n=10.,  \overline{x}=4.580,  \overline{y}=12.001,  \sigma _{x}^{2}=2.270720,  cov=3.964780,  \sigma _{y}^{2}=8.915409$

  3. Le facteur de réduction de variance et l'écart-type résiduel valent :
    $ frv=4.473981996 $ et $ \sigma _{residuel}=1.411638582 $
  4. La droite de régression est $ 4.004112494+1.746045307  x $

Figure: Exemple de régression affine
\resizebox*{!}{0.2\textheight}{\includegraphics{figures/corr_exo_01.eps}}

2.5.2 Régression affine (2)

exo 18.  On recommence avec les points :
$ [6.67,  -10.7],  [6.36,  -11.3],  [2.51,  -3.14],  [3.47,  -5.82],  [3.37,  .24] $
$ [5.93,  -5.76],  [6.17,  -9.54],  [5.41,  -8.51],  [2.09,  1.81],  [3.45,  -.61] $

  1. On trouve

    \begin{displaymath}
\begin{array}{c}
\sum 1=10,  \sum x=45.43,  \sum y=-53.33\...
...4089,  \sum x  y=-307.8843,  \sum y^{2}=486.2271
\end{array}\end{displaymath}

  2. D'où les paramètres de dispersion :

    $\displaystyle n=10.,  \overline{x}=4.543,  \overline{y}=-5.333,  \sigma _{x}^{2}=2.702041,  cov=-6.560611,  \sigma _{y}^{2}=20.181821$

  3. Et donc $ frv:=4.745846575 $ et $ \sigma _{residuel}=2.062164603 $.
  4. La droite de régression est $ y=5.697497230-2.428020522  x $

Figure: deuxième exercice
\resizebox*{!}{0.2\textheight}{\includegraphics{figures/corr_exo_02.eps}}

2.5.3 Régression affine

exo 19.  On recommence avec
$ [2.48,  5.73],  [3.73,  7.77],  [3.10,  6.55],  [2.69,  5.46],  [4.88,  10.6] $
$ [4.98,  10.6],  [4.47,  8.98],  [4.75,  9.57],  [4.21,  8.74],  [3.29,  6.64] $

  1. On trouve

    \begin{displaymath}
\begin{array}{c}
\sum 1=10,  \sum x=38.58,  \sum y=80.64\\...
....6158,  \sum x  y=326.9400,  \sum y^{2}=683.3424
\end{array}\end{displaymath}

  2. D'où

    $\displaystyle n=10.,  \overline{x}=3.858,  \overline{y}=8.064,  \sigma _{x}^{2}=.7774160,  cov=1.583088,  \sigma _{y}^{2}=3.306144$

  3. Puis $ frv=40.10898783 $ et $ \sigma _{residuel}=.2871045211 $
  4. La droite est $ y=.207776943+2.036346049  x $.

Figure: Troisième exercice.
\resizebox*{!}{0.2\textheight}{\includegraphics{figures/corr_exo_03.eps}}

2.5.4 Régression affine (données groupées)

exo 20.  On a 50 points $ \left( x,  y\right) $ avec $ x=1,2,3,4 $ et $ y=1,2,3,4 $. Sur une même ligne du tableau, $ x$ est constant. Sur une même colonne, $ y$ est constant :



$ \downarrow x\quad y\rightarrow $ $ 1 $ $ 2 $ $ 3 $ $ 4 $
$ 1 $ $ 7 $ $ 3 $ $ 1 $ $ 1 $
$ 2 $ $ 3 $ $ 7 $ $ 3 $ $ 1 $
$ 3 $ $ 2 $ $ 2 $ $ 6 $ $ 3 $
$ 4 $ $ 1 $ $ 3 $ $ 3 $ $ 4 $



  1. Calculer les diverses sommes relatives à cette distribution.



    $ \downarrow x\quad y\rightarrow $ $ 1 $ $ 2 $ $ 3 $ $ 4 $ $ n_{j*} $ $ x_{j}  n_{j*} $ $ \sum _{k}  y_{k}  n_{jk} $ $ x_{j}  \sum _{k}  y_{k}  n_{jk} $ $ x_{j}^{2}  n_{j*} $
    $ 1 $ $ 7 $ $ 3 $ $ 1 $ $ 1 $ $ 12 $ $ 12 $ $ 20 $ $ 20 $ $ 12 $
    $ 2 $ $ 3 $ $ 7 $ $ 3 $ $ 1 $ $ 14 $ $ 28 $ $ 30 $ $ 60 $ $ 56 $
    $ 3 $ $ 2 $ $ 2 $ $ 6 $ $ 3 $ $ 13 $ $ 39 $ $ 36 $ $ 108 $ $ 117 $
    $ 4 $ $ 1 $ $ 3 $ $ 3 $ $ 4 $ $ 11 $ $ 44 $ $ 32 $ $ 128 $ $ 176 $
    $ n_{*k} $ $ 13 $ $ 15 $ $ 13 $ $ 9 $ $ 50 $ $ $ $ $ $ $ $ 361 $
    $ y_{k}  n_{*k} $ $ 13 $ $ 30 $ $ 39 $ $ 36 $ $ $ $ $ $ 118 $ $ $ $ $
    $ \sum _{j}  x_{j}  n_{jk} $ $ 23 $ $ 35 $ $ 37 $ $ 28 $ $ $ $ 123 $ $ $ $ $ $ $
    $ y_{k}  \sum _{j}x_{j}  n_{jk} $ $ 23 $ $ 70 $ $ 111 $ $ 112 $ $ $ $ $ $ $ $ 316 $ $ $
    $ y_{k}^{2}  n_{*k} $ $ 13 $ $ 60 $ $ 117 $ $ 144 $ $ 334 $ $ $ $ $ $ $ $ $



  2. On obtient $ \overline{x}=\frac{123}{50},  \overline{y}=\frac{59}{25} $, $ \displaystyle \sigma _{x}^{2}=\frac{2921}{2500},  cov=\frac{643}{1250},  \sigma _{y}^{2}=\frac{694}{625} $, puis

    $\displaystyle aa=.4402601849,  r=.4516119855,  frv=1.256207842$

  3. Compléter le dessin, en traçant la bande de confiance.

Figure: Distribution groupée.
\resizebox*{!}{7cm}{\includegraphics{figures/corr_dg_01.eps}}


previous up next contents
Previous: 1 Distributions statistiques univariées Up: Statistiques pour l'ingénieur Next: 3 Probabilités   Contents


douillet@ensait.fr
2002-11-20