Up: Return to previous menu
Ensait - E2 - Tests d'hypothèses
Date: Corrigé de l'évaluation du 06/12/2004
durée 2 heures - tous documents
autorisés
- Chaque étudiant travaillera de façon isolée (avec le libre accès
à ses propres documents et aux cours en ligne). Les feuilles de calcul
qui auraient été réalisées en binôme lors d'une séance de TP devront
avoir été dupliquées dans les répertoires personnels des étudiants
concernés.
- Le compte-rendu se composera de :
- Un compte-rendu expérimental, sous forme d'un listing imprimé
et paginé, contenant les procédures, les graphes et les calculs.
- Un compte-rendu mathématique, manuscrit ou imprimé, mettant
en valeur les résultats obtenus et les méthodes utilisées.
- Le document complet sera agrafé et paginé.
- Prévoir le temps nécessaire pour les impressions. Faire un essai
d'impression dès la première heure. Ne pas oublier les sauvegardes
en cours de travail.
- Il va de soi que tous les problèmes de compte informatique (mots
de passe, comptes périmés ou autres problèmes) devront avoir été résolus
largement avant l'évaluation.
- L'attention des étudiants est attirée sur le fait que le trafic
réseau de leur ordinateur est susceptible d'être enregistré pendant
la durée de l'évaluation.
1 Données statistiques et visualisation
- Vérifier que les bibliothèques pldx et simul
sont chargées sur l'ordinateur et que les numéros de version
sont
On pourra alors définir la commande chargée de tracer les histogrammes
par
macro(histo=xhisto) au lieu de macro(histo=stats[statplots,
histogram]).
- Faire ce qu'il faut pour transférer les données contenues dans
le fichier
http://www.douillet.info/~douillet/cours/decis_ds10/dat_ds_10.txt
vers un objet
de type liste.
- Déterminer l'effectif
, le domaine de valeurs
, la valeur
moyenne
et la variance
de cette liste de données.
- Tracer les trois histogrammes histo(li,
area=1, numbars=x) avec
,
et enfin
"choisi
au mieux". Justifier ce choix.
- Faire apparaître moyenne et écart-type sur le meilleur histogramme.
On pourra utiliser la procédure
xima:=proc(pl); op(1,pl) : convert(%,list): map(op,%):
map2(op,2,%): max(op(%)): end:
pour déterminer la valeur maximale d'un histogramme.
Commentaire global : l'objectif de cette section était de vérifier
une connaissance minimale des commandes du logiciel utilisé. Une utilisation
de ces commandes dans l'esprit des séances de TD est donnée http://www.douillet.info/~douillet/cours/decis_ds10/maple.html
.
Les données étaient différentes pour les deux groupes. Elles sont
actuellement accessibles sous les noms dat_ds_10a.txt
et
dat_ds_10b.txt.
2 Modèle lognormal
- Déterminer les paramètres
et
de la loi lognormale la plus
susceptible de "coller" avec les données.
On estime les paramètres de la population par ceux de l'échantillon
et on applique les formules du cours
La correction en
de la variance est inutile
ici (
est grand).
- On trouve
et
.
- On trouve
et
.
- Superposer la courbe de cette loi lognormale
sur l'histogramme.
On utilise le fait que
est normalement distribué avec les
paramètres
et
. On a donc
les cdf et pdf de la loi normale étant fournies par le package simul.
- Regrouper les classes terminales de l'histogramme
1.4 en deux classes (de largeur
à déterminer) pour que chaque classe comprenne au moins
individus.
Utiliser la commande tallyinto pour répartir
les données selon cette nouvelle partition et obtenir un objet
de type stats_data. Contrôler en superposant
le nouvel histogramme avec l'ancien.
Ce regroupement est utile à la fois pour le test du
et
pour un bon fonctionnement de recode.
- Tracer l'histogramme de la répartition théorique
associée à cette loi
(et à la partition 2.3).
Procéder à un test du
pour comparer avec la répartition
expérimentale.
Le nombre de degrés de liberté est le nombre de classes moins 3. Il
faut prendre en compte non seulement la relation usuelle sur les effectifs,
mais aussi le fait que l'on a déterminé deux paramètres à partir de
l'échantillon.
- Pour le choix de classes donné en corrigé, on trouve
avec
.
- Pour le choix de classes donné en corrigé, on trouve
avec
.
Dans les deux cas, le test est valide (le nombre théorique de visites
vaut au moins
pour chaque classe) et donne un
réduit
à peu près égal à zéro: l'écart entre la théorie et l'expérimentation
est exactement l'écart le plus probable.
3 Loi "en masse"
- Appliquer la procédure
recode:= proc(item) global m; local a,b,c;
a,b,c:= op(op(1,item)), op(2,item); Weight(a..b, c*(a+b)/2/m);
end;
à chacun des objets composant
. Dresser l'histogramme
de l'objet
ainsi obtenu.
- Expliquer quelle est l'action de recode. En
particulier, pourquoi divise-t-on par
?
Cette procédure a comme résultat de pondérer chaque classe par sa
valeur moyenne (arithmétique). On divise par l'espérance pour retrouver
une masse totale comparable à l'effectif initial
. Le poids
total effectivement obtenu est
.
- Calculer moyenne
et variance
de la nouvelle distribution.
Examiner si les formules générales liant loi en nombre et loi en masse
se vérifient sur l'exemple traité.
Il y a deux relations de natures différentes. D'une part la relation
qui est valable pour toute distribution positive et d'autre part les
relations
qui sont particulières à la loi lognormale.
- Pour les coefficients de variation, on trouve
alors que
. Pour les moyennes on a
alors que
.
- Pour les coefficients de variation, on trouve
alors que
. Pour les moyennes on a
alors que
.
Le désaccord sur les moyennes doit être évalué par comparaison avec
l'écart-type sur les moyennes d'échantillon. Dans les deux cas, on
trouve
Valeur qui est au seuil de rejet (probabilité de l'ordre de un pour
mille).
- Visualiser
et
sur l'histogramme
. Superposer la
courbe de la loi lognormale
correspondante.
Il y avait deux interprétations possibles pour cette question : utiliser
la loi lognormale de paramètres
et
ou bien la loi de
paramètres
et
. Si l'on trace les deux, on constate que
le premier choix (celui suggéré en TD) donne un bien meilleur accord
(les paramètres ayant été l'objet d'une bien meilleure évaluation).
- Tracer l'histogramme de la répartition théorique
associée à cette loi
(et à la partition 2.3).
Procéder à un test du
pour comparer avec la répartition
expérimentale.
Il y a une difficulté concernant la gestion du dernier intervalle.
On dispose des choix suivants :
- Ne pas se poser de question. On obtient :
- Obtenir la probabilité du dernier intervalle comme étant le complément
à 1 de la probabilité totale des autres intervalles. On peut alors
comparer des populations de taille égale. On obtient :
- Ne pas tenir compte de ce dernier intervalle. On obtient
Le diagnostic est donc, selon le cas : rejet ferme, gros doute, absence
de rejet. La comparaison des trois tests montre donc que le désaccord
entre les histogrammes théorique et expérimental porte essentiellement
sur le dernier intervalle, c'est à dire sur les très grandes valeurs
de la variable.
- Comparer les résultats des tests 2.4
et 3.5.
Le fait que l'accord sur la répartition "en nombre"
soit bien meilleur que celui sur la répartition "en masse"
s'explique aisément. Les données "en nombre" sont
directement issues du processus expérimental, tandis que les données
"en masse" sont inférées par un processus d'approximation.
- Poser
avec
égal à votre date
de naissance.
- Poser
,
et
.
- Faire tourner le programme de simulation des files d'attente
qui se trouve (vers la fin de) http://www.douillet.info/~douillet/cours/oprea.mws.
Dans une file d'attente
, les inter-arrivées et les services
suivent des lois exponentielles, respectivement
On obtient un générateur non uniforme en prenant l'image d'un générateur
uniforme par la fonction icdf (fonction réciproque de la fonction
de probabilité cumulée). Dans le cas exponentiel de paramètre
on obtient, pour
uniformément distribué dans
:
- Utiliser un test du
pour comparer la loi du temps
de séjour donnée en cours et les résultats expérimentaux.
Il faut commencer par choisir un découpage en classes. Le corrigé
utilise dix classes dont les frontières sont choisies pour qu'elles
aient le même poids
. On trace les deux histogrammes et on
procède au test du
.
On constate un "bon accord visuel" validant le fait
que les temps de séjour
(holding time) sont distribués exponentiellement
selon
et en même temps un mauvais score au
(avec des valeurs
réduites
). En effet les temps de séjour ne sont pas indépendants
les uns des autres (si un client doit attendre longtemps, le client
suivant lui aussi devra attendre).
Up: Return to previous menu
douillet@ensait.fr
2004-12-08