previous up next contents
Previous: 1. Distributions statistiques univariées Up: Statistiques pour l'ingénieur Next: 3. Probabilités   Contents

Subsections

2. Distributions bivariées

2.1 Description du problème

Definition 2.1.1   Distribution bivariée. On recense deux caractères. Les mesures sont donc formées de couples $ \left(x,\, y\right)$.

Remark 2.1.2   Les stats-proba recherchent d'éventuelles corrélations entre les valeurs prises par les grandeurs $ X$ et $ Y$. Lorsqu'une telle corrélation existe, elle ne suffit pas à prouver une causalité. Par ailleurs, il peut exister une relation de causalité sans que telle ou telle technique de corrélation puisse rendre apparente cette causalité.

Definition 2.1.3 (DO)   La distribution observée est la série brute des données recensées.

Scilab 2.1.4   Une DO représente par deux vecteurs $ X$ et $ Y$ de même taille, les valeurs étant appariées par rang.

Definition 2.1.5 (DG)   En regroupe les données de chaque sorte (les $ x$ et les $ y$) en classes, on obtient une nouvelle distribution (elle dépend des groupements choisis). Et on présente le tout dans un tableau, le tableau de contingence (cf TAB. 2.1).


TAB. 2.1: Tableau de contingence : un exemple
\begin{tabular}{\vert c\vert\vert c\vert c\vert c\vert c\vert}
\hline
$\downarr...
...ne
\hline
$40$\ & $0$\ & $0$\ & $0$\ & $5$\tabularnewline
\hline
\end{tabular}



Remark 2.1.6   Ce qui concernait l'utilisation du tableau de contingence pour le calcul manuel a été relégué en Annexe anx:Tableau-de-contingence.

Scilab 2.1.7   Une DG se représente par les vecteurs $ X$ et $ Y$ des centres de classes et par la matrice des fréquences. Le vecteur $ X$ donne les titres des lignes et est donc en colonne, tandis que le vecteur $ Y$ donne les titres des colonnes et est donc en ligne.

Definition 2.1.8   Distribution marginale. S'appelle ainsi parce qu'on note les valeurs correspondantes dans les marges du tableau. Il s'agit de la distribution de $ x$ seul (en oubliant les valeurs de $ y$), ou de la distribution de $ y$ seul. Les effectifs marginaux se notent : $ n_{j*}=\sum_{k}n_{j\, k}$ et $ n_{*k}=\sum_{j}n_{j\, k}$. Les fréquences marginales sont $ f_{j*}=\frac{1}{N}\, n_{j*}$ et $ f_{*k}=\frac{1}{N}\, n_{*k}$.

Scilab 2.1.9   On obtient les effectifs marginaux par :
fx=sum(fre,'c'), fy=sum(fre,'r')
fx est une matrice colonne et fy une matrice ligne.

2.2 Indépendance complète

Caveat : ne pas confondre avec l'indépendance linéaire (qui sera définie par la suite).

Definition 2.2.1   Distribution conditionnelle. La distribution d'une modalité conditionnée par une valeur effectivement atteinte par l'autre modalité est la distribution de la sous-population correspondante. Ainsi, la distribution en fréquence de $ y$ conditionnée par $ x=10$ est $ \left[0.80,0.16,0.04,0\right]$. Celle conditionnée par $ x=20$ est $ \left[\frac{10}{45},\,\frac{36}{45},\,\frac{9}{45},0\right]$.

Definition 2.2.2   Indépendance complète. On dit que $ x$ et y sont complètement indépendantes lorsque toutes les distributions en fréquence de $ y$ conditionnées par les diverses valeurs de $ x$ sont égales entre elles.

Exercise 2.2.3   Montrer que ces distributions en fréquence sont alors égales à la distribution marginale.

Exercise 2.2.4   Montrer que l'indépendance complète est une relation symétrique en $ x$ et $ y$.

Exercise 2.2.5   Montrer que, s'il y a indépendance complète, on peut reconstituer le tableau de contingence à partir des distributions marginales.

Theorem 2.2.6   Si les deux variables $ X$ et $ Y$ sont complètement indépendantes, on a alors

$\displaystyle \mathrm{var}\left(X+Y\right)=\mathrm{var}\left(X\right)+\mathrm{var}\left(Y\right)$

Preuve. Soient $ p_{j}=Pr\left(X=x_{j}\right)$, $ q_{k}=Pr\left(Y=y_{k}\right)$ et $ P_{jk}=Pr\left(X=x_{j}\,\mathrm{et}\, Y=y_{k}\right)$. On a

\begin{displaymath}\begin{array}{ccl} \mathrm{var}\left(X+Y\right) & = & \sum P_...
...t)\times1+0\times0+1\times\mathrm{var}\left(Y\right)\end{array}\end{displaymath} (2.1)

en posant $ \xi_{j}=x_{j}-\overline{x}$ et $ \eta_{k}=y_{k}-\overline{y}$ (variables centrées). $ \qedsymbol$

Definition 2.2.7   On appelle covariance de $ X$ et de $ Y$ la quantité :

$\displaystyle \mathrm{cov}\, (X,\, Y)=\mathrm{E}\left(\left(x\,-\mathrm{moy}\left(x\right)\right)\left(y-\mathrm{moy}\left(y\right)\right)\right)$ (2.2)

Proposition 2.2.8   Dans tous les cas,

$\displaystyle \mathrm{var}\left(X+Y\right)=\mathrm{var}\left(X\right)+\mathrm{var}\left(Y\right)+2\,\mathrm{cov}\left(X,Y\right)$

Preuve. Calcul direct ou ... polarisation d'une forme quadratique. $ \qedsymbol$

Maple 2.2.9   .La covariance s'obtient par l'opérateur cov, que l'on définit par la commande :
with(simul) ; macro(cov=xcov) ;
Prendre garde au fait que le programme "stats[covariance]", fourni par Waterloo est faux (mal programmé). Cela se voit au fait que stats[covariance](li,li) ne redonne pas var(li).

Scilab 2.2.10   La covariance s'obtient par covar(x,y,fre), tandis que les moyennes pondérées s'obtiennent par meanf(x,fx).

2.3 Droite de régression

Definition 2.3.1   Etant donné un ensemble de couples $ \left(x,\, y\right)$, on appelle droite de régression affine de la variable $ Y$ par rapport à la variable $ X$ la droite % latex2html id marker 8463
$ y_{prev}=\alpha x+\beta$ conduisant à la valeur minimale de l'expression : % latex2html id marker 8465
$ \mathrm{E}\left(\left(y-y_{prev}\right)^{2}\right)$. Ce minimum s'appelle la variance réduite de $ Y$.

Theorem 2.3.2   La droite de régression (de $ y$ par rapport à $ x$) est donnée par :

% latex2html id marker 8483
$\displaystyle y_{prev}=\mathrm{E}\left(y\right)+\a...
...mathrm{avec}\:\alpha=\frac{\mathrm{cov}\, (x,\, y)}{\mathrm{var}\left(x\right)}$ (2.3)

et le facteur de réduction de variance FRV par :

% latex2html id marker 8485
$\displaystyle FRV\doteq\frac{\mathrm{var}\left(y\r...
...{1-r^{2}},\quad\mathrm{avec}\: r=\frac{\mathrm{cov}\, }{\sigma_{x}\,\sigma_{y}}$

Remark 2.3.3   On remarquera la disparition de $ \beta$ qui n'a pas forcément de signification (lorsque $ x=0$ n'est pas réaliste).

Preuve. Posons % latex2html id marker 8505
$ \chi^{2}=\mathrm{E}\left(\left(y-y_{prev}\right)^{2}\right)$. Si l'on considère, pour $ a$ fixé, la nouvelle variable $ Z=Y-a\, X$ on a $ \chi^{2}=\mathrm{E}\left(\left(z-b\right)^{2}\right)$. La Proposition 1.7.11 (Huygens) nous donne $ \chi^{2}=\mathrm{var}\left(Z\right)+\left(\mathrm{E}\left(Z\right)-b\right)^{2}$. Pour une direction donnée, la meilleure droite est donc celle qui passe par le point moyen $ \left(\mathrm{E}\left(X\right),\,\mathrm{E}\left(Y\right)\right)$.

Considérons les variables centrées $ \xi\doteq x-\mathrm{E}\left(X\right)$ et $ \eta\doteq y-\mathrm{E}\left(Y\right)$. On a alors

$\displaystyle \chi^{2}=\mathrm{E}\left(\left(\eta-a\,\xi\right)^{2}\right)=\mat...
...mathrm{var}\left(y\right)-2a\,\mathrm{cov}\, +a^{2}\mathrm{var}\left(\xi\right)$

On reconnait alors un trinome en la variable $ a$ et la conclusion suit. $ \qedsymbol$

Remark 2.3.4   Le $ FRV$ est une mesure de la qualité de l'approximation. Plus il est élevé, meilleure est l'approximation.

Proposition 2.3.5   L'écart quadratique moyen entre un nuage de points $ \left(x,\, y\right)$ et la droite $ y=A\, x+B$ est donné par :

$\displaystyle \chi^{2}=\left(\mathrm{E}\left(y\right)-A\,\mathrm{E}\left(x\righ...
...-\alpha\right)^{2}\mathrm{var}\left(x\right)+\mathrm{var}\left(y\right)\div FRV$

Remark 2.3.6   On peut faire la même chose dans le sens $ y$ vers $ x$. Cela donne le même coefficient de corrélation, mais les droites de tendance ne sont pas les mêmes.

Exercise 2.3.7   Quelle est la valeur du $ FRV$ pour $ r=0.3$ ? Quelle valeur de $ r$ conduit à un $ FRV$ égal à $ 2$ ?

2.4 Indépendance linéaire

Caveat : ne pas confondre avec indépendance complète.

Theorem 2.4.1   Sur l'espace des variables, la moyenne est une forme linéaire. Sur l'espace des variables centrées, la variance est une forme quadratique, dont la covariance est la polarisée. On a donc :
$\displaystyle \mathrm{moy}\left(a\, x+b\, y\right)$ $\displaystyle =$ $\displaystyle a\,\mathrm{moy}\left(x\right)+b\,\mathrm{moy}\left(y\right)$  
$\displaystyle \mathrm{var}\left(a\, x+b\, y\right)$ $\displaystyle =$ $\displaystyle a^{2}\,\mathrm{var}\left(x\right)+b^{2}\,\mathrm{var}\left(y\right)+2a\, b\,\mathrm{cov}\, (x,\, y)$  

Definition 2.4.2   On dit que deux variables $ X,\, Y$ sont linéairement indépendantes lorsque $ \mathrm{cov}\, \left(X,\, Y\right)=0$. Cette définition équivaut donc à $ \mathrm{var}\left(X+Y\right)=\mathrm{var}\left(X\right)+\mathrm{var}\left(Y\right)$.

Definition 2.4.3   Coefficient de corrélation. On pose $ r=\frac{\mathrm{cov}\, (x,\, y)}{\sigma_{x}\,\sigma_{y}}$. Ce coefficient est une grandeur sans dimensions (c'est à dire un nombre).

Exercise 2.4.4   Montrer $ r$ est toujours compris dans l'intervalle $ \left[-1\,;\,+1\right]$.

Example 2.4.5   Dans l'exemple ci-dessus, on a $ r^{2}=\frac{\mathrm{cov}\, }{\mathrm{var}\left(x\right)\,\mathrm{var}\left(y\right)}\approx0.0006$ . Le caractère $ x$ intervient dans $ 0.06\,\%$ de la variance de $ y$ : les caractères $ x$ et $ y$ sont (presque) linéairement indépendants.

Exercise 2.4.6   On considère les $ 7$ couples définis par $ x=-3,\,-2,\,-1,\,0,\,+1,\,+2,\,+3$ et par $ y=x^{2}$. Poser les calculs et conclure.

2.5 Exercices sur le web

www.obs-vlfr.fr/~enseigne/maitp6/poly_exo/corrregr.htm  : Maîtrise BPE (upmc)

2.6 Un exemple (DO)

Exercise 2.6.1   On considère la série de points :
$ [4.11,\,12.6],\,[5.73,\,12.8],\,[5.47,\,11.2],\,[5.16,\,11.9],\,[2.44,\,9.58]$
$ [6.98,\,16.9],\,[2.94,\,7.59],\,[4.34,\,12.5],\,[2.47,\,8.14],\,[6.16,\,16.8]$

  1. Les sommes valent :

    \begin{displaymath}
\begin{array}{c}
\sum1=10,\,\sum x=45.80,\,\sum y=120.01\\
...
...32.4712,\,\sum x\, y=589.2936,\,\sum y^{2}=1529.3941\end{array}\end{displaymath}

  2. Les paramètres de dispersion valent

    $\displaystyle n=10.,\,\overline{x}=4.580,\,\overline{y}=12.001,\,\sigma_{x}^{2}=2.270720,\, cov=3.964780,\,\sigma_{y}^{2}=8.915409$

  3. Le facteur de réduction de variance et l'écart-type résiduel valent :
    $ frv=4.473981996$ et % latex2html id marker 8699
$ \sigma_{residuel}=1.411638582$
  4. La droite de régression est $ 4.004112494+1.746045307\, x$
FIG. 2.1: Exemple de régression affine
% latex2html id marker 8702
\includegraphics[height=0.2\paperwidth]{figures/corr_exo_01}

Scilab 2.6.2   n=size(x,'*') ; mx=mean(xx) ; vx=covar(xx,xx,eye(n,n)) ;

Exercise 2.6.3   Recommencer la série :
$ [6.67,\,-10.7],\,[6.36,\,-11.3],\,[2.51,\,-3.14],\,[3.47,\,-5.82],\,[3.37,\,.24]$
$ [5.93,\,-5.76],\,[6.17,\,-9.54],\,[5.41,\,-8.51],\,[2.09,\,1.81],\,[3.45,\,-.61]$

Exercise 2.6.4   De même avec On recommence avec
$ [2.48,\,5.73],\,[3.73,\,7.77],\,[3.10,\,6.55],\,[2.69,\,5.46],\,[4.88,\,10.6]$
$ [4.98,\,10.6],\,[4.47,\,8.98],\,[4.75,\,9.57],\,[4.21,\,8.74],\,[3.29,\,6.64]$

2.7 Régression affine (données groupées)

Exercise 2.7.1   Traiter la distribution groupée : \begin{displaymath}\begin{array}{cccccc}
\ & \ \left(x=1\right) & \ \left(2\righ...
... 5 & 6 & 4\\
\ \left(y=1\right) & 0 & 3 & 2 & 5 & 9\end{array}\end{displaymath}

  1. Description Maple du problème

    N:= Matrix([[9, 6, 2, 1, K], [6, 7, 5, 3, 2],

        [2, 3, 5, 6, 4], [K, 3, 2, 5, 9]]) ;

    X:= Transpose(< 1,2,3,5,6 >) ; Y:= < 5,4,3,1 > ;

    visu:= < < '', map(Z -> ''(Z), Y) > | < map(Z -> ''(Z), X), N > > ;

  2. Calcul des paramètres de dispersion (utilisant les macros nbr, moy, var, cov).

    yy,xx:= Dimension(N) :

    datx:= [seq(seq(Weight(X[j], N[i,j]), i=1..yy),j=1..xx)] :

    daty:= [seq(seq(Weight(Y[i], N[i,j]), i=1..yy),j=1..xx)] :

    datx, daty:= remove(has,datx,K), remove(has,daty,K) :

    nn:= nbr(datx) ; mx, my:= moy(datx), moy(daty) ;

    vx, vxy, vy:= var(datx), cov(datx, daty), var(daty);

    FRV:=1/(1-vxy^2/vx/vy) ; evalf(%) ;

    $\displaystyle nn:=80,\,80\quad;\quad mx,\, my:=\frac{131}{40},\,\frac{261}{80}\...
...vy:={\displaystyle \frac{5519}{1600}},\,\frac{-4991}{3200},\,\frac{13239}{6400}$

    $\displaystyle FRV:=\frac{73066041}{48155960}\approx1.517$

  3. Droite de régression et tracé (FIG. 2.2).

    regr:= my+(x-mx)*vxy/vx ;

    pl1:=plot({regr+sqrt(vy/FRV), regr-sqrt(vy/FRV)}, x=0..7, color=blue):

    pl2:= plot({my+sqrt(vy), my-sqrt(vy)}, x=0..7, color=red) :

    stats[statplots,scatterplot](datx, daty, format=sunflower, color=black):

    displayg(pl2, pl1, yshift(-0.5, xshift(-0.5, %)), scaling=constrained,     labels=['',''], tickmarks=[[1,6],[1,5]]) ;

    $\displaystyle droite:=\frac{52357}{11038}-\frac{4991}{11038}\, x$

FIG. 2.2: Distribution groupée : marguerites et bande de confiance.
% latex2html id marker 8754
\includegraphics[height=7cm]{figures/sunflower}

Exercise 2.7.2   La distribution de la TAB. 2.2 concerne 50 points $ \left(x,\, y\right)$ avec $ x=1,2,4,5$ et $ y=1,4,6,7$. Déterminer la meilleure droite de régression affine et le $ FRV$ ainsi obtenu. Illustration graphique.


TAB. 2.2: Les données de Exercice 2.7.2.
\begin{tabular}{\vert c\vert\vert c\vert c\vert c\vert c\vert}
\hline
$\downarr...
...ine
\hline
$1$\ & $1$\ & $3$\ & $3$\ & $4$\tabularnewline
\hline
\end{tabular}




previous up next contents
Previous: 1. Distributions statistiques univariées Up: Statistiques pour l'ingénieur Next: 3. Probabilités   Contents


douillet@ensait.fr
2008-08-30