Up: Return to previous menu
Ensait - E2 - Tests d'hypothèses
Corrigé du projet pour le DS du 24/01/2003
- On considère un ensemble de
objets manufacturés
constituant la production d'un jour donné. On commence par prélever
un échantillon de
objets dans cette population. La
moyenne de cet échantillon est
et son écart-type
est
. En déduire un encadrement (à
de fiabilité) de la moyenne de la population totale.
- Pour un échantillon de taille suffisante, la variable réduite associée
à la moyenne, soit
,
suit approximativement une loi normale.
- L'encadrement demandé est donc
avec
facteur de couverture pour la loi normale et une fiabilité
de
et
écart-type de la population. D'après
les tables,
.
- La valeur de
n'est pas connue. Son estimation à partir
de l'échantillon est
. En ne tenant
pas compte de la correction de Fischer, on trouve :
- On prélève un deuxième échantillon de
objets
dans cette population. La moyenne de cet échantillon est
et son écart-type est
. En déduire un encadrement
(à
de fiabilité) de la moyenne de la population totale.
En partant des données du deuxième échantillon, on arrive à :
- Quelle est l'importance de la correction de Fischer pour les
questions 1 et 2 ?
- La correction de Fischer consiste à utiliser un facteur de couverture
plus large que celui de la loi normale, de façon à tenir compte de
l'incertitude supplémentaire introduite par le fait que
n'est pas connu directement, mais seulement estimé à partir de l'échantillon.
- Le nombre de degrés de liberté est ici
.
- Les tables donnent, pour une fiabilité à
,
pour
et
pour
. Une interpolation
sur les inverses (pour tenir compte de la décroissance rapide) conduit
au système :
soit
.
- Une meilleure réponse aux deux premières questions est donc :
- Remarque (HS) : un calcul exact, par intégration de la densité, donne
respectivement
et
.
- On considère l'échantillon constitué de la réunion des deux
échantillons précédents. On a évidemment
. Déterminer
la moyenne
et l'écart-type
de cet
échantillon.
- Les définitions donnent
et
,
et l'on a évidemment
.
- En résolvant ces équations, il vient :
- On précise maintenant que le premier échantillon a été prélevé
le matin, et le second l'après midi. Les données recueillies indiquent-elles
une différence significative entre la production du matin et celle
de l'après-midi ?
- On se demande donc si la différence entre les moyennes
et
peut être interprétée par la variabilité
naturelle d'une population homogène (hypothèse
), ou bien
si cette différence doit être mise au compte d'un
autre phénomène (changement significatif).
- Remarque : une étude analogue serait à entreprendre pour les variances.
- En supposant
, les variables
sont des variables normales. Et notre meilleure estimation de leurs
paramètres de dispersion est
et
.
- La variable
est donc normale et ses
paramètres sont
(on remarquera que les variances s'ajoutent... )
- Comme
, la variable réduite associée vaut
.
On sait qu'il y a grosso-modo une probabilité d'une chance sur trois
pour que
. La différence entre les deux échantillons
peut donc être mise au compte de la variabilité naturelle d'une population
homogène.
- En supposant que la population est homogène et distribuée normalement,
estimer le nombre d'objets (de la population totale) vérifiant
.
- La variable réduite associée est
.
- Les tables de la fonction de répartition donnent
.
- Vu l'effectif total, l'espérance du nombre
d'objets vérifiant
est
. Son écart-type est donné par la loi binômiale
et vaut
.
Avec un facteur de couverture égal à
, on obtient
.
- Reprendre la question précédente en supposant que les productions
du matin et de l'après-midi sont distribuées normalement (selon des
lois différentes). Comparer les deux résultats.
- En reprenant les mêmes calculs, on obtient
.
D'où une probabilité
. En considérant
que les tailles des échantillons matin/soir étaient proportionnels
aux productions matin/soir, on obtient
et
.
- De même, on obtient
et
- On en tire la valeur centrale
. Ce nombre
n'est pas égal au
précédemment obtenu, mais se situe dans
l'intervalle de confiance.
- Il est naturel que l'on obtienne des résultats comparables, puisque
les productions matin/soir ne sont pas sensiblement différentes.
- Compléter la table ci-dessous, qui donne les valeurs de
lorsque
suit une loi de Poisson de paramètre
.
- On rappelle que
.
- On a donc
,
et
.
- Examiner, par un test du
, l'hypothèse selon
laquelle les
valeurs ci-dessous constituent un échantillon
prélevé au sein d'une population régie par une loi de Poisson de paramètre
.
- En collectant les données (et en regroupant les deux dernières colonnes,
de façon à ce que les espérances des nombres de visites
soient toutes supérieures à
), on obtient le tableau :
 |
0 |
1 |
2 |
3 |
4 |
5 |
6 et plus |
 |
 |
 |
 |
 |
 |
 |
 |
| effectif réel |
 |
 |
 |
 |
 |
 |
 |
- Un peu de calcul conduit à
- Le nombre de degrés de liberté est
, et donc
- D'où un rejet absolu de l'hypothèse "loi de Poisson de paramètre
".
- Examiner l'hypothèse selon laquelle les
valeurs
précédentes sont distribuées selon une loi de Poisson (la valeur du
paramètre n'étant pas fixé).
- La valeur de
donnant la meilleure vraisemblance à
l'hypothèse d'une loi de Poisson est la moyenne de l'échantillon,
soit
.
- On aboutit au tableau :
 |
0 ou 1 |
2 |
3 |
4 |
5 |
6 |
7 et plus |
 |
 |
 |
 |
 |
 |
 |
 |
| effectif réel |
 |
 |
 |
 |
 |
 |
 |
- Un peu de calcul conduit à
- Le nombre de degrés de liberté est
, et donc
.
L'hypothèse d'une distribution de Poisson est donc tout à fait acceptable.
On considère la série de points :
- Calculer les paramètres de dispersion de cette série de points.
On obtient aisément
,
et
.
- Représentation graphique des points. Visualisation des paramètres
de dispersion.
On représente les verticales
et les horizontales
- Droite de régression. Visualisation.
- La droite de régression affine a pour pente
et passe par le point moyen
- Le facteur de réduction de variance est
- On trace deux parallèles à la droite de régression, à une distance
verticale égale à l'écart-type réduit
Up: Return to previous menu
douillet@ensait.fr
2003-01-24