previous up next contents
Previous: 1. Échantillonage Up: Aide à la décision Next: 3. Loi de Student-Fischer   Contents

Subsections

2. Loi et test du $ \chi ^{2}$

2.1 L'indicateur de Pearson

Definition 2.1.1   Une "bonne" partition de l'ensemble $ \Omega$ des événements possibles est une suite finie de $ \nu+1$ sous-ensembles $ I_{0},\, I_{1},\,\cdots,\, I_{\nu}$ deux à deux disjoints, recouvrant $ \Omega$ i.e. $ \Omega=\cup I_{j}$ et tels que les probabilités $ p_{j}\doteq Pr\left(I_{j}\right)$ soient toutes non nulle.

Definition 2.1.2   Soient donnés une variable aléatoire $ X$, une bonne partition $ \left(I_{j}\right)$ de l'ensemble de ses valeurs et $ n$ un nombre d'essais. On procède à $ n$ tirages de la variable $ X$ et on appelle $ n_{j}$ le nombre de fois où la variable $ X$ est tombée dans le sous-ensemble $ I_{j}$ (nombre de visites). L'indicateur de Pearson est défini par :

$\displaystyle {\displaystyle \chi_{Pearson}^{2}=\sum_{j=0}^{\nu}\,\frac{\left(n_{j}-n\, p_{j}\right)^{2}}{n\, p_{j}}}$ (2.1)

Exercise 2.1.3   On lance un dé équilibré $ 120$ fois. Les nombres de visites sont $ 26,\,11,\,18,\,23,\,26$, $ 16$. Calculer le $ \chi ^{2}$ associé.

Exercise 2.1.4   Même question avec $ 21,\,20,\,18,\,24,\,22,\,15$, puis avec $ 21,\,20,\,22,\,22,\,16,\,19$.

Remark 2.1.5   L'espérance de $ n_{j}$ (sur l'ensemble de tous les essais possibles) vaut $ n\, p_{j}$. Le test consiste donc à calculer l'écart entre les valeurs probables et les valeurs effectivement obtenues.

Theorem 2.1.6   L'espérance et la variance du $ \chi ^{2}$ de Pearson sur l'ensemble des échantillons de taille $ n$ donnée sont données par les formules :

$\displaystyle \mathrm{E}\left(\chi_{Pearson}^{2}\right)=\nu\quad;\quad\mathrm{v...
...+\frac{1}{n}\left(3-\left(\nu+2\right)^{2}+\sum_{0}^{\nu}\frac{1}{p_{i}}\right)$

Exercise 2.1.7   On reprend les exercices sur les lots de $ 120$ lancers d'un dé équilibré. Calculer les valeurs de la variable réduite associée.

Exercise 2.1.8   Montrer que, pour $ \nu$ et $ n$ fixés, la valeur minimale de $ \mathrm{var}\left(\chi_{Pearson}^{2}\right)$ est $ 2\nu\,\frac{n-1}{n}$.

Remark 2.1.9   La relation $ \mathrm{E}\left(\chi_{Pearson}^{2}\right)=\nu$ est une formule exacte, indépendante de toute hypothèse sur la loi de la variable $ \zeta$, ainsi que des valeurs prises par les $ p_{i}$ (c'est à dire indépendante du choix de la partition). La seule chose qui compte est le nombre $ \nu+1$ des classes et le fait que $ \forall i\,:\, p_{i}\neq0$.

Remark 2.1.10   Il est très peu vraisemblable que $ \chi_{Pearson}^{2}\approx0$. Autrement dit, des résultats trop loin des prévisions sont mauvais, mais des résultats "trop bons" ont vraisemblablement été falsifiés.

Proposition 2.1.11   Cas $ \nu=1$. On pose $ p_{1}=p$, $ p_{0}=1-p$, $ n_{1}=w$, $ n_{0}=n-w$ et on obtient :

$\displaystyle \chi_{Pearson}^{2}\doteq\frac{\left(n\, p-w\right)^{2}}{n\, p}+\f...
...ight)}=\frac{\left(n\, p-w\right)^{2}}{n\, p\left(1-p\right)}=z_{binomiale}^{2}$

2.2 Une loi modèle

Definition 2.2.1   Définition : $ \chi_{1}^{2}$ (loi du "khi-deux" à $ 1$ degré de liberté) est la loi de $ \zeta=z^{2}$ lorsque $ z$ est une variable normale réduite. On a donc $ g\left(\zeta\right)\,\mathrm{d}\zeta=f\left(z\right)\,\mathrm{d}z$ soit

$\displaystyle \chi_{1}^{2}\left(\zeta\right)=Cte\times\frac{1}{\sqrt{\zeta}}\exp\left(-\frac{\zeta}{2}\right)$ (2.2)

Exercise 2.2.2   Déterminer la constante dans la formule 2.2.

Proposition 2.2.3   On a :

$\displaystyle \chi_{1}^{2}\quad:\quad\mathrm{E}\left(\zeta\right)=1\:;\:\mathrm{var}\left(\zeta\right)=2$ (2.3)

Preuve. Par définition $ \mathrm{E}\left(\zeta\right)=\mathrm{var}\left(z\right)=1$. Un peu de calcul conduit à $ \mathrm{var}\left(\zeta\right)=\mathrm{E}\left(z^{4}\right)-\left(\mathrm{var}\left(z\right)\right)^{2}=2$. $ \qedsymbol$

Definition 2.2.4   $ \chi_{\nu}^{2}$ (Chi2 avec $ \nu$ degrés de liberté) est la loi de $ \zeta=\sum z_{j}^{2}$ lorsque les $ \nu$ variables $ z_{j}$ sont des variables normales réduites indépendantes.

Theorem 2.2.5   Les paramètres de la loi du $ \chi ^{2}$ sont :

$\displaystyle \chi_{\nu}^{2}\left(\zeta\right)=Cte\times\zeta^{\frac{\nu}{2}-1}\exp\left(-\frac{\zeta}{2}\right)$ (2.4)

$\displaystyle \chi_{\nu}^{2}\quad:\quad\mathrm{E}\left(\zeta\right)=\nu\:;\:\mathrm{var}\left(\zeta\right)=2\nu$ (2.5)

Exercise 2.2.6   Déterminer la valeur de la constante dans la formule (2.4).

Exercise 2.2.7   Déterminer la valeur modale (ayant la plus grande densité de probabilité).

Fact 2.2.8   Si $ X$ et $ Y$ sont deux variables aléatoires indépendantes, ayant respectivement $ f$ et $ g$ comme densités de probabilité, alors la variable $ Z=X+Y$ a une densité de probabilité qui est donnée par

$\displaystyle Pr\left(Z\in\left[z+\mathrm{d}z\right]\right)=\mathrm{d}z\,\int_{u=-\infty}^{u=+\infty}f\left(u\right)\, g\left(z-u\right)\,\mathrm{d}u$ (2.6)

Cette opération s'appelle la convolution et se note $ f\star g$.

Exercise 2.2.9   Démontrer la formule (2.4) en utilisant des convolutions.

Proposition 2.2.10   Si $ \zeta_{1}$ est distribuée selon $ \chi_{n}^{2}$, si $ \zeta_{2}$ est distribuée selon $ \chi_{m}^{2}$ et si de plus $ \zeta_{1},\,\zeta_{2}$ sont indépendantes, alors $ \zeta=\zeta_{1}+\zeta_{2}$ est distribuée selon $ \chi_{n+m}^{2}$.

Remark 2.2.11   La loi du $ \chi ^{2}$ est très fortement dissymétrique pour les valeurs pratiques de $ \nu$. Il n'est donc pas possible de modéliser la loi du $ \chi ^{2}$ réduit par la loi normale (en tout cas pour $ \nu<30$). La FIG.2.1 donne les courbes du % latex2html id marker 8326
$ \chi_{red}^{2}$ pour $ \nu$ de $ 3$ à $ 16$.
FIG. 2.1: Loi réduite du $ \chi ^{2}$ (pour $ \nu =3..16$).
% latex2html id marker 8333
\includegraphics[%
width=14cm,
height=7cm]{figures/Chi_red.eps}

2.3 Conditions d'emploi

Theorem 2.3.1   Lorsque $ n\rightarrow \infty $, l'indicateur de Pearson tend à se répartir selon la "loi du $ \chi ^{2}$" (ayant le même nombre de degrés de liberté).

Preuve. Ce résulta est montré dans l'annexe B.2. $ \qedsymbol$

Remark 2.3.2   Une évidence. La connaissance de la loi limite n'a aucun intérêt pratique si l'on ne sait pas fixer un seuil à partir duquel on peut considérer que $ n$ est assez grand pour que l'on puisse appliquer cette loi limite.

Theorem 2.3.3   Critère de Pearson : "la loi du $ \chi ^{2}$" peut être utilisée pour évaluer le résultat d'un test de Pearson lorsque chacun des $ n\, p_{i}$ (les espérances des nombres de visite) vaut au moins $ 5$. Dans le cas contraire, il convient de regrouper des classes.

Remark 2.3.4   Il faut formuler clairement l'hypothèse à tester, AVANT de commencer le test.

Theorem 2.3.5   Le nombre de d.o.f. diminue chaque fois qu'un paramètre est estimé à partir de l'échantillon.

2.4 Un exemple

  1. Rappel préalable sur la loi de Poisson. Il s'agit d'une loi sur les entiers naturels, avec

    $\displaystyle Pr\left(K=k\right)=\frac{\lambda^{k}}{k!}\exp\left(-\lambda\right)$

    Le facteur exponentiel sert à normaliser c'est à dire à avoir $ \sum_{k\in\mathbb{N}}Pr\left(k\right)=1$. On a les résultats suivants :

    $\displaystyle \mathrm{E}\left(K\right)=\lambda\quad;\quad\mathrm{var}\left(K\right)=\lambda$

  2. Pose du problème : On a une file d'attente. Toutes les cinq minutes, on note le nombre de clients qui viennent d'arriver. On observe cinq heures d'affilée, soit $ n=60$ observations. On trouve les valeurs suivantes :

    \begin{tabular}{\vert c\vert c\vert c\vert c\vert c\vert c\vert}
\hline
$x$\ (n...
... d'observations&
$14$&
$16$&
$20$&
$9$&
$1$\tabularnewline
\hline
\end{tabular}

  3. Premier test : on cherche à vérifier si la loi des arrivées est une loi de Poisson, de paramètre $ \lambda=1.2$.

    1. On calcule les fréquences théoriques :

      \begin{tabular}{\vert c\vert c\vert c\vert c\vert c\vert c\vert}
\hline
nombre ...
...&
$.3012$&
$.3614$&
$.2169$&
$.0867$&
$qsp$\tabularnewline
\hline
\end{tabular}

    2. On calcule le $ \chi_{Pearson}^{2}$ et on trouve $ 9.4490$. D'où la valeur réduite % latex2html id marker 8437
$ \chi_{red}^{2}\approx\frac{9.4490-4}{\sqrt{8}}\approx1.92$. Pas de rejet de l'hypothèse.
    3. Comme le nombre probable de visites au dernier état vaut environ 2, il aurait été préférable de regrouper la dernière classe avec la précédente, donnant lieu à un test à 4 cases et 3 d.o.f..
  4. Deuxième test. On se demande si la loi des arrivées est une loi de Poisson, pour un paramètre ou un autre. Le choix le plus favorable est alors $ \mu=\mathrm{E}\left(x\right)=1.45$.

    1. On obtient un nouveau tableau théorique :

      \begin{tabular}{\vert c\vert c\vert c\vert c\vert c\vert c\vert}
\hline
nombre ...
...&
$.2346$&
$.3401$&
$.2466$&
$.1192$&
$qsp$\tabularnewline
\hline
\end{tabular}

    2. On calcule la nouvelle valeur du $ \chi_{Pearson}^{2}$ et on trouve $ 5.1125$. D'où la valeur réduite % latex2html id marker 8445
$ \chi_{red}^{2}\approx\frac{5.1125-3}{\sqrt{6}}\approx0.86$. Pas de rejet non plus (comme de juste, il est plus probable d'avoir une loi de Poisson d'un paramètre ou un autre, plutôt que d'avoir une loi d'un paramètre spécifié).
    3. Ici aussi, le nombre théorique de visites au dernier état est trop faible, et il aurait mieux valu regrouper la dernière classe avec l'avant dernière classe, donnant lieu à un test à 4 cases et 2 d.o.f..

Exercise 2.4.1   Reprendre ces deux tests en procédant aux regroupements indiqués.


previous up next contents
Previous: 1. Échantillonage Up: Aide à la décision Next: 3. Loi de Student-Fischer   Contents


douillet@ensait.fr
2007-09-25