previous up next contents
Previous: 1 Échantillonage Up: Tests d'hypothèses Next: 3 Régressions affine et   Contents

Subsections

2 Loi et test du $ \chi ^{2}$

2.1 Loi du $ \chi ^{2}$ à $ \nu $ ddl

  1. Définition : $ \chi ^{2}_{1} $ (loi du "khi-deux" à $ 1 $ degré de liberté) est la loi de $ \zeta =z^{2} $ lorsque $ z $ est une variable normale réduite. On a donc $ g\left( \zeta \right)   \mathrm{d}\zeta =f\left( z\right)   \mathrm{d}z $ soit

    $\displaystyle \chi _{1}^{2}\left( \zeta \right) =Cte\times \frac{1}{\sqrt{\zeta }}\exp \left( -\frac{\zeta }{2}\right)$ (3)

    exo 5.  Déterminer la constante.
  2. Formules. Par définition $ \mathrm{E}\left( \zeta \right) =\mathrm{var}\left( z \right) =1 $. Un peu de calcul conduit à $ \mathrm{var}\left( \zeta \right) =\mathrm{E}\left( z^{4} \right) -\left( \mathrm{var}\left( z \right) \right) ^{2}=2 $. En résumé :

    $\displaystyle \chi _{1}^{2}\quad :\quad \mathrm{E}\left( \zeta \right) =1\: ;\: \mathrm{var}\left( \zeta \right) =2$ (4)

  3. Définition : $ \chi ^{2}_{\nu } $ (Chi2 à $ \nu $ ddl) est la loi de $ \zeta =\sum z_{j}^{2} $ lorsque les $ \nu $ variables $ z_{j} $ sont des variables normales réduites indépendantes. On a donc :

    $\displaystyle \chi _{\nu }^{2}\left( \zeta \right) =Cte\times \zeta ^{\frac{\nu }{2}-1}\exp \left( -\frac{\zeta }{2}\right)$ (5)

    $\displaystyle \chi _{\nu }^{2}\quad :\quad \mathrm{E}\left( \zeta \right) =\nu \: ;\: \mathrm{var}\left( \zeta \right) =2\nu$ (6)

    exo 6.  Déterminer la valeur de la constante exo 7.  Déterminer la valeur modale (ayant la plus grande densité de probabilité).
  4. Rappel : loi de la somme de deux variables indépendantes. Si $ X $ et $ Y $ sont deux variables aléatoires indépendantes, ayant respectivement $ f $ et $ g $ comme densités de probabilité, alors la variable $ Z=X+Y $ a une densité de probabilité qui est donnée par

    $\displaystyle Pr\left( Z\in \left[ z+\mathrm{d}z\right] \right) =\mathrm{d}z  ...
..._{u=-\infty }^{u=+\infty }f\left( u\right)   g\left( z-u\right)   \mathrm{d}u$ (7)

    Cette opération s'appelle la convolution et se note $ f\star g $ . exo 8.  Démontrer la formule (5) par convolutions
  5. Proposition. Si $ \zeta _{1} $ est distribuée selon $ \chi ^{2}_{n} $, si $ \zeta _{2} $ est distribuée selon $ \chi ^{2}_{m} $ et si de plus $ \zeta _{1},  \zeta _{2} $ sont indépendantes, alors $ \zeta =\zeta _{1}+\zeta _{2} $ est distribuée selon $ \chi ^{2}_{n+m} $.
  6. Dissymétrie. La loi du $ \chi ^{2}$ est très fortement dissymétrique pour les valeurs pratiques de $ \nu $. Il n'est donc pas possible de modéliser la loi du $ \chi ^{2}$ réduit par la loi normale (en tout cas pour $ \nu <30 $). La FIG. 1 donne les courbes du $ \chi _{red}^{2} $ pour $ \nu $ de $ 3 $ à $ 16 $.

    Figure: Loi réduite du $ \chi ^{2}$ (pour $ \nu =3..16$).
    \resizebox*{14cm}{7cm}{\includegraphics{figures/Chi_red.eps}}

2.2 Test du $ \chi ^{2}$ de Pearson

  1. Définition. Une "bonne" partition de l'ensemble $ \Omega $ des événements possibles est une suite finie de $ \nu +1 $ sous-ensembles $ I_{0},  I_{1},  \cdots ,  I_{\nu } $ deux à deux disjoints, recouvrant $ \Omega $ i.e. $ \Omega =\cup I_{j} $ et tels que les probabilités $ p_{j}\doteq Pr\left( I_{j} \right) $ soient toutes non nulles.
  2. Définition. Soient donnés une variable aléatoire $ X $, une bonne partition $ \left( I_{j}\right) $ de l'ensemble de ses valeurs et $ n $ un nombre d'essais. On procède à $ n $ tirages de la variable $ X $ et on appelle $ n_{j} $ le nombre de fois où la variable $ X $ est tombée dans le sous-ensemble $ I_{j} $. Le test de Pearson consiste à calculer

    $\displaystyle \displaystyle \chi ^{2}_{Pearson}=\sum _{j=0}^{\nu }  \frac{\left( n_{j}-n  p_{j}\right) ^{2}}{n  p_{j}}$ (8)

    et à en conclure quelque chose. exo 9.  On lance un dé équilibré $ 120 $ fois. Les nombres de visites sont $ 26,  11,  18,  23,  26,  16 $. Calculer le $ \chi ^{2}$ associé. exo 10.  Même question avec $ 21,  20,  18,  24,  22,  15 $, puis avec $ 21,  20,  22,  22,  16,  19 $.
  3. Remarque : l'espérance de $ n_{j} $ (sur l'ensemble de tous les essais possibles) vaut $ n  p_{j} $. Le test consiste donc à calculer l'écart entre les valeurs probables et les valeurs effectivement obtenues.
  4. Formules. L'espérance et la variance du $ \chi ^{2}$ de Pearson sur l'ensemble des échantillons de taille $ n $ donnée sont données par les formules :

    $\displaystyle \mathrm{E}\left( \chi ^{2}_{Pearson} \right) =\nu \quad ;\quad \m...
...1}{n}\left( 3-\left( \nu +2\right) ^{2}+\sum _{0}^{\nu }\frac{1}{p_{i}}\right) $

    exo 11.  On reprend les exercices sur les lots de $ 120 $ lancers d'un dé équilibré. Calculer les valeurs de la variable réduite associée. exo 12.  Montrer que la valeur minimale de $ \mathrm{var}\left( \chi ^{2}_{Pearson} \right) $ est $ 2\nu   \frac{n-1}{n} $.
  5. Commentaire. La relation $ \mathrm{E}\left( \chi ^{2}_{Pearson} \right) =\nu $ est une formule exacte, indépendante de toute hypothèse sur la loi de la variable $ \zeta $, ainsi que des valeurs prises par les $ p_{i} $ (c'est à dire indépendante du choix de la partition). La seule chose qui compte est le nombre $ \nu +1 $ des classes et le fait que $ \forall i  :  p_{i}\neq 0 $.
  6. Remarque : il est très peu vraisemblable que $ \chi ^{2}_{Pearson}\approx 0 $. Autrement dit, des résultats trop loin des prévisions sont mauvais, mais des résultats "trop bons" ont vraisemblablement été falsifiés.

2.3 Conditions d'emploi

  1. Une évidence. La connaissance de la loi limite n'a aucun intérêt pratique si l'on ne sait pas fixer un seuil à partir duquel on peut considérer que $ n $ est assez grand pour que l'on puisse considérer que $ n\approx \infty $.
  2. Critère. On considère généralement que "la loi du $ \chi ^{2}$" peut être utilisée pour évaluer le résultat d'un test de Pearson lorsque chacun des $ n  p_{i} $ (les espérances des nombres de visite) vaut au moins $ 5 $. Dans le cas contraire, il convient de regrouper des classes.
  3. Il faut formuler clairement l'hypothèse à tester, AVANT de commencer le test.

2.4 Un exemple

  1. Rappel préalable sur la loi de Poisson. Il s'agit d'une loi sur les entiers naturels, avec

    $\displaystyle Pr\left( K=k \right) =\frac{\lambda ^{k}}{k!}\exp \left( -\lambda \right) $

    Le facteur exponentiel sert à normaliser c'est à dire à avoir $ \sum _{k\in \mathbb{N}}Pr\left( k \right) =1 $. On a les résultats suivants :

    $\displaystyle \mathrm{E}\left( K \right) =\lambda \quad ;\quad \mathrm{var}\left( K \right) =\lambda $

  2. Pose du problème : On a une file d'attente. Toutes les cinq minutes, on note le nombre de clients qui viennent d'arriver. On observe cinq heures d'affilée, soit $ n=60 $ observations. On trouve les valeurs suivantes :

    $ x $ (nombre de clients) 0 1 2 3 4+
    nombre d'observations $ 14 $ $ 16 $ $ 20 $ $ 9 $ $ 1 $

  3. Premier test : on cherche à vérifier si la loi des arrivées est une loi de Poisson, de paramètre $ \lambda =1.2 $.

    1. On calcule les fréquences théoriques :

      nombre de clients 0 1 2 3 4+
      $ \char93  $ $ .3012 $ $ .3614 $ $ .2169 $ $ .0867 $ $ qsp $

    2. On calcule le $ \chi ^{2}_{Pearson} $ et on trouve $ 9.4490 $. D'où la valeur réduite $ \chi ^{2}_{red}\approx \frac{9.4490-4}{\sqrt{8}}\approx 1.92 $. Pas de rejet de l'hypothèse.
    3. Comme le nombre probable de visites au dernier état vaut environ 2, il est préférable de regrouper la dernière classe avec la précédente, donnant lieu à un test à 4 cases et 3 ddl.
  4. Deuxième test. On se demande si la loi des arrivées est une loi de Poisson, pour un paramètre ou un autre. Le choix le plus favorable est alors $ \mu =\mathrm{E}\left( x \right) =1.45 $.

    1. On obtient un nouveau tableau théorique :

      nombre de clients 0 1 2 3 4+
      $ \char93  $ $ .2346 $ $ .3401 $ $ .2466 $ $ .1192 $ $ qsp $

    2. On calcule la nouvelle valeur du $ \chi ^{2}_{Pearson} $ et on trouve $ 5.1125 $. D'où la valeur réduite $ \chi ^{2}_{red}\approx \frac{5.1125-3}{\sqrt{6}}\approx 0.86 $. Pas de rejet non plus (comme de juste, il est plus probable d'avoir une loi de Poisson d'un paramètre ou un autre, plutôt que d'avoir une loi d'un paramètre spécifié).
    3. Ici aussi, le nombre théorique de visites au dernier état est trop faible, et il vaut mieux regrouper avec l'avant dernière classe, donnant lieu à un test à 4 cases et 2 ddl.
Le nombre de ddl diminue chaque fois qu'un paramètre est estimé à partir de l'échantillon.

2.5 Calculs complémentaires

  1. Appliquons cet algorithme au $ \chi ^{2}_{Pearson} $. Pour $ \nu =3 $, la substitution de $ p_{0}=1-\sum _{j=1}^{\nu }  p_{j} $ et de $ n_{0}=n-\sum _{j=1}^{\nu }  n_{j} $, suivie d'une complétion des carrés, permet de transformer
    $ \frac{\left( n_{0}-n  p_{0}\right) ^{2}}{n  p_{0}}+\frac{\left( n_{1}-n  p_...
...}\right) ^{2}}{n  p_{2}}+\frac{\left( n_{3}-n  p_{3}\right) ^{2}}{n  p_{3}} $ en :
    $ \frac{1}{n  \left( 1-p_{1}\right)   p_{1}}\left( n_{1}-n  p_{1}\right) ^{2}...
..._{3}\right) }\left( n_{3}-\frac{n-n_{1}-n_{2}}{1-p_{1}-p_{2}}p_{3}\right) ^{2} $.
  2. Résultat : en posant $ Z_{j}^{2}=\frac{\left( n_{j}-M_{j}  q_{j}\right) ^{2}}{M_{j}  q_{j}  \left( 1-q_{j}\right) } $, $ M_{j}=n-\sum _{k=1}^{j-1}  n_{k} $ et $ q_{j}=\frac{p_{j}}{1-\sum _{k=1}^{j-1}  p_{k}} $, il vient :

    $\displaystyle \displaystyle \chi ^{2}=\sum _{j=1}^{r}\frac{M_{j}  q_{j}}{n  p_{j}}  Z_{j}^{2}$

  3. Interprétation. Les quantités $ M_{j} $ et $ q_{j} $ ne sont pas de simples "artifices techniques" et possèdent une signification fondamentale. Les événements multinomiaux $ \left( n_{0},  n_{1},  \cdots ,  n_{\nu }\right) $, régis par les probabilités $ n!  \prod   \left( p_{j}^{n_{j}}  /  n_{j}!\right) $ peuvent être obtenus selon l'algorithme suivant. En un premier temps, $ n_{1} $ est obtenu en $ M_{1}=n $ épreuves de Bernoulli indépendantes, avec $ q_{1}=p_{1} $ comme probabilité élémentaire, c.à.d selon la loi binomiale $ \left( M_{1},  q_{1}\right) $. Dans une seconde étape, $ n_{2} $ est obtenu en $ M_{2}=n-n_{1} $ épreuves de Bernoulli indépendantes, avec $ q_{2}=p_{2}/\left( 1-p_{1}\right) $ comme probabilité élémentaire. Dans une troisième étape, $ n_{3} $ est obtenu en $ M_{3}=n-n_{1}-n_{2} $ épreuves de Bernoulli indépendantes, avec $ q_{3}=p_{3}/\left( 1-p_{1}-p_{2}\right) $ comme probabilité élémentaire. Et ainsi de suite, jusqu'à l'obtention de $ n_{\nu } $. Après quoi, $ n_{0} $ est obtenu par $ n_{0}=n-\sum _{j=1}^{\nu }  n_{j} $.
  4. Passage à la limite. On voit que les coefficients $ \frac{M_{j}  q_{j}}{n  p_{j}} $ sont de limite $ 1 $, tandis que les variables $ Z_{j} $ finissent par se comporter comme des variables normales réduites lorsque $ n\rightarrow \infty $. La loi de répartition du $ \chi ^{2}$ de Pearson a donc pour limite à l'infini la "loi du $ \chi _{\nu }^{2} $".
  5. Rappel du critère pratique : il n'est pas question d'augmenter le nombre tests jusqu'à obtenir $ n\rightarrow \infty $. On se limite à exiger $ \forall i  :  n  p_{i}\geq 5 $.


previous up next contents
Previous: 1 Échantillonage Up: Tests d'hypothèses Next: 3 Régressions affine et   Contents


douillet@ensait.fr
2002-12-19