Previous: 1. Distributions statistiques univariées
Up: Statistiques pour l'ingénieur
Next: 3. Probabilités
  Contents
Subsections
Definition 2.1.1
Distribution bivariée. On recense deux caractères. Les mesures sont
donc formées de couples

.
Remark 2.1.2
Les stats-proba recherchent d'éventuelles corrélations entre les valeurs
prises par les grandeurs

et

. Lorsqu'une telle corrélation
existe, elle ne suffit pas à prouver une causalité. Par ailleurs,
il peut exister une relation de causalité sans que telle ou telle
technique de corrélation puisse rendre apparente cette causalité.
Definition 2.1.3 (DO)
La distribution observée est la série brute des données recensées.
Scilab 2.1.4
Une DO représente par deux vecteurs

et

de même taille, les
valeurs étant appariées par rang.
Definition 2.1.5 (DG)
En regroupe les données de chaque sorte (les

et les

)
en classes, on obtient une nouvelle distribution (elle dépend des
groupements choisis). Et on présente le tout dans un tableau, le tableau
de contingence (cf T
AB. 2.1).
TAB. 2.1:
Tableau de contingence : un exemple
|
|
Remark 2.1.6
Ce qui concernait l'utilisation du tableau de contingence pour le
calcul manuel a été relégué en Annexe anx:Tableau-de-contingence.
Scilab 2.1.7
Une DG se représente par les vecteurs

et

des centres de
classes et par la matrice des fréquences. Le vecteur

donne les
titres des lignes et est donc en colonne, tandis que le vecteur

donne les titres des colonnes et est donc en ligne.
Definition 2.1.8
Distribution marginale. S'appelle ainsi parce qu'on note les valeurs
correspondantes dans les marges du tableau. Il s'agit de la distribution
de

seul (en oubliant les valeurs de

), ou de la distribution
de

seul. Les effectifs marginaux se notent :

et

. Les fréquences marginales sont

et

.
Scilab 2.1.9
On obtient les effectifs marginaux par :
fx=sum(fre,'c'), fy=sum(fre,'r')
fx est une matrice colonne et fy une matrice ligne.
Caveat : ne pas confondre avec l'indépendance linéaire (qui sera définie
par la suite).
Definition 2.2.1
Distribution conditionnelle. La distribution d'une modalité conditionnée
par une valeur effectivement atteinte par l'autre modalité est la
distribution de la sous-population correspondante. Ainsi, la distribution
en fréquence de

conditionnée par

est
![$ \left[0.80,0.16,0.04,0\right]$](img76.png)
.
Celle conditionnée par

est
![$ \left[\frac{10}{45},\,\frac{36}{45},\,\frac{9}{45},0\right]$](img78.png)
.
Definition 2.2.2
Indépendance complète. On dit que

et y sont complètement indépendantes
lorsque toutes les distributions en fréquence de

conditionnées
par les diverses valeurs de

sont égales entre elles.
Exercise 2.2.3
Montrer que ces distributions en fréquence sont alors égales à la
distribution marginale.
Exercise 2.2.4
Montrer que l'indépendance complète est une relation symétrique en

et

.
Exercise 2.2.5
Montrer que, s'il y a indépendance complète, on peut reconstituer
le tableau de contingence à partir des distributions marginales.
Theorem 2.2.6
Si les deux variables
et
sont complètement indépendantes,
on a alors
Preuve.
Soient

,

et

.
On a
 |
(2.1) |
en posant

et

(variables centrées).
Definition 2.2.7
On appelle covariance de

et de

la quantité :
 |
(2.2) |
Proposition 2.2.8
Dans tous les cas,
Preuve.
Calcul direct ou ... polarisation d'une forme quadratique.
Maple 2.2.9
.La covariance s'obtient par l'opérateur cov, que l'on définit
par la commande :
with(simul) ; macro(cov=xcov) ;
Prendre garde au fait que le programme "stats[covariance]",
fourni par Waterloo est faux (mal programmé). Cela se voit au fait
que stats[covariance](li,li) ne redonne pas var(li).
Scilab 2.2.10
La covariance s'obtient par covar(x,y,fre), tandis que les
moyennes pondérées s'obtiennent par meanf(x,fx).
Definition 2.3.1
Etant donné un ensemble de couples

, on appelle
droite de régression affine de la variable

par rapport à la variable

la droite

conduisant à la valeur minimale
de l'expression :

. Ce minimum
s'appelle la variance réduite de

.
Theorem 2.3.2
La droite de régression (de
par rapport à
) est donnée par :
 |
(2.3) |
et le facteur de réduction de variance FRV par :
Remark 2.3.3
On remarquera la disparition de

qui n'a pas forcément de
signification (lorsque

n'est pas réaliste).
Preuve.
Posons

. Si l'on considère,
pour

fixé, la nouvelle variable

on a

.
La Proposition
1.7.11 (Huygens) nous donne

.
Pour une direction donnée, la meilleure droite est donc celle qui
passe par le point moyen

.
Considérons les variables centrées
et
.
On a alors
On reconnait alors un trinome en la variable

et la conclusion
suit.
Remark 2.3.4
Le

est une mesure de la qualité de l'approximation. Plus il
est élevé, meilleure est l'approximation.
Proposition 2.3.5
L'écart quadratique moyen entre un nuage de points
et la droite
est donné par :
Remark 2.3.6
On peut faire la même chose dans le sens

vers

. Cela donne
le même coefficient de corrélation, mais les droites de tendance ne
sont pas les mêmes.
Exercise 2.3.7
Quelle est la valeur du

pour

? Quelle valeur de

conduit à un

égal à

?
Caveat : ne pas confondre avec indépendance complète.
Theorem 2.4.1
Sur l'espace des variables, la moyenne est une forme linéaire. Sur
l'espace des variables centrées, la variance est une forme quadratique,
dont la covariance est la polarisée. On a donc :
Definition 2.4.2
On dit que deux variables

sont linéairement indépendantes
lorsque

. Cette définition équivaut donc
à

.
Definition 2.4.3
Coefficient de corrélation. On pose

.
Ce coefficient est une grandeur sans dimensions (c'est à dire un nombre).
Exercise 2.4.4
Montrer

est toujours compris dans l'intervalle
![$ \left[-1\,;\,+1\right]$](img118.png)
.
Example 2.4.5
Dans l'exemple ci-dessus, on a

. Le caractère

intervient dans

de la variance de

: les caractères

et

sont (presque) linéairement indépendants.
Exercise 2.4.6
On considère les

couples définis par

et par

. Poser les calculs et conclure.
www.obs-vlfr.fr/~enseigne/maitp6/poly_exo/corrregr.htm
: Maîtrise BPE (upmc)
Exercise 2.6.1
On considère la série de points :
![$ [6.98,\,16.9],\,[2.94,\,7.59],\,[4.34,\,12.5],\,[2.47,\,8.14],\,[6.16,\,16.8]$](img124.png)
- Les sommes valent :
- Les paramètres de dispersion valent
- Le facteur de réduction de variance et l'écart-type résiduel valent :
et
- La droite de régression est
FIG. 2.1:
Exemple de régression affine
|
|
Scilab 2.6.2
n=size(x,'*') ; mx=mean(xx) ; vx=covar(xx,xx,eye(n,n)) ;
Exercise 2.6.3
Recommencer la série :
![$ [5.93,\,-5.76],\,[6.17,\,-9.54],\,[5.41,\,-8.51],\,[2.09,\,1.81],\,[3.45,\,-.61]$](img132.png)
Exercise 2.6.4
De même avec On recommence avec
![$ [4.98,\,10.6],\,[4.47,\,8.98],\,[4.75,\,9.57],\,[4.21,\,8.74],\,[3.29,\,6.64]$](img134.png)
Exercise 2.7.1
Traiter la distribution groupée :
- Description Maple du problème
N:= Matrix([[9, 6, 2, 1, K], [6, 7, 5, 3,
2],
[2, 3, 5, 6, 4], [K, 3, 2, 5, 9]])
;
X:= Transpose(< 1,2,3,5,6 >) ; Y:= < 5,4,3,1 > ;
visu:= < < '', map(Z -> ''(Z), Y) > | < map(Z ->
''(Z), X), N > > ;
- Calcul des paramètres de dispersion (utilisant les macros nbr, moy,
var, cov).
yy,xx:= Dimension(N) :
datx:= [seq(seq(Weight(X[j], N[i,j]), i=1..yy),j=1..xx)]
:
daty:= [seq(seq(Weight(Y[i], N[i,j]), i=1..yy),j=1..xx)]
:
datx, daty:= remove(has,datx,K), remove(has,daty,K)
:
nn:= nbr(datx) ; mx, my:= moy(datx), moy(daty) ;
vx, vxy, vy:= var(datx), cov(datx, daty), var(daty);
FRV:=1/(1-vxy^2/vx/vy) ; evalf(%)
;
- Droite de régression et tracé (FIG. 2.2).
regr:= my+(x-mx)*vxy/vx ;
pl1:=plot({regr+sqrt(vy/FRV), regr-sqrt(vy/FRV)},
x=0..7, color=blue):
pl2:= plot({my+sqrt(vy), my-sqrt(vy)}, x=0..7,
color=red) :
stats[statplots,scatterplot](datx, daty, format=sunflower,
color=black):
displayg(pl2, pl1, yshift(-0.5, xshift(-0.5, %)),
scaling=constrained, labels=['',''], tickmarks=[[1,6],[1,5]])
;
FIG. 2.2:
Distribution groupée : marguerites et bande de confiance.
|
|
Exercise 2.7.2
La distribution de la T
AB. 2.2
concerne 50 points

avec

et

.
Déterminer la meilleure droite de régression affine et le

ainsi
obtenu. Illustration graphique.
TAB. 2.2:
Les données de Exercice 2.7.2.
|
|
Previous: 1. Distributions statistiques univariées
Up: Statistiques pour l'ingénieur
Next: 3. Probabilités
  Contents
douillet@ensait.fr
2008-08-30