previous up next_inactive
Up: Return to previous menu

Ensait - E2 - Tests d'hypothèses


Date: Corrigé de l'évaluation du 06/12/2004

durée 2 heures - tous documents autorisés

Consignes diverses

  1. Chaque étudiant travaillera de façon isolée (avec le libre accès à ses propres documents et aux cours en ligne). Les feuilles de calcul qui auraient été réalisées en binôme lors d'une séance de TP devront avoir été dupliquées dans les répertoires personnels des étudiants concernés.
  2. Le compte-rendu se composera de :
    1. Un compte-rendu expérimental, sous forme d'un listing imprimé et paginé, contenant les procédures, les graphes et les calculs.
    2. Un compte-rendu mathématique, manuscrit ou imprimé, mettant en valeur les résultats obtenus et les méthodes utilisées.
    3. Le document complet sera agrafé et paginé.
  3. Prévoir le temps nécessaire pour les impressions. Faire un essai d'impression dès la première heure. Ne pas oublier les sauvegardes en cours de travail.
  4. Il va de soi que tous les problèmes de compte informatique (mots de passe, comptes périmés ou autres problèmes) devront avoir été résolus largement avant l'évaluation.
  5. L'attention des étudiants est attirée sur le fait que le trafic réseau de leur ordinateur est susceptible d'être enregistré pendant la durée de l'évaluation.


1 Données statistiques et visualisation

  1. Vérifier que les bibliothèques pldx et simul sont chargées sur l'ordinateur et que les numéros de version sont

    maths

    On pourra alors définir la commande chargée de tracer les histogrammes par

    macro(histo=xhisto) au lieu de macro(histo=stats[statplots, histogram]).
  2. Faire ce qu'il faut pour transférer les données contenues dans le fichier
    http://www.douillet.info/~douillet/cours/decis_ds10/dat_ds_10.txt
    vers un objet maths  de type liste.
  3. Déterminer l'effectif maths, le domaine de valeurs maths, la valeur moyenne maths et la variance maths de cette liste de données.
  4. Tracer les trois histogrammes histo(li, area=1, numbars=x) avec maths, maths et enfin maths "choisi au mieux". Justifier ce choix.
  5. Faire apparaître moyenne et écart-type sur le meilleur histogramme. On pourra utiliser la procédure
    xima:=proc(pl); op(1,pl) : convert(%,list): map(op,%):  
       map2(op,2,%): max(op(%)): end:
    pour déterminer la valeur maximale d'un histogramme.
Commentaire global : l'objectif de cette section était de vérifier une connaissance minimale des commandes du logiciel utilisé. Une utilisation de ces commandes dans l'esprit des séances de TD est donnée http://www.douillet.info/~douillet/cours/decis_ds10/maple.html . Les données étaient différentes pour les deux groupes. Elles sont actuellement accessibles sous les noms dat_ds_10a.txt et dat_ds_10b.txt.


2 Modèle lognormal

  1. Déterminer les paramètres maths et maths de la loi lognormale la plus susceptible de "coller" avec les données. On estime les paramètres de la population par ceux de l'échantillon et on applique les formules du cours

    maths

    La correction en maths de la variance est inutile ici (maths est grand).
    1. On trouve maths et maths.
    2. On trouve maths et maths.
  2. Superposer la courbe de cette loi lognormale maths sur l'histogramme. On utilise le fait que maths est normalement distribué avec les paramètres maths et maths. On a donc
    maths maths maths  
    maths maths maths  

    les cdf et pdf de la loi normale étant fournies par le package simul.
  3. Regrouper les classes terminales de l'histogramme 1.4 en deux classes (de largeur à déterminer) pour que chaque classe comprenne au moins maths individus. Utiliser la commande tallyinto pour répartir les données selon cette nouvelle partition et obtenir un objet maths de type stats_data. Contrôler en superposant le nouvel histogramme avec l'ancien. Ce regroupement est utile à la fois pour le test du maths et pour un bon fonctionnement de recode.
  4. Tracer l'histogramme de la répartition théorique associée à cette loi maths (et à la partition 2.3). Procéder à un test du maths pour comparer avec la répartition expérimentale. Le nombre de degrés de liberté est le nombre de classes moins 3. Il faut prendre en compte non seulement la relation usuelle sur les effectifs, mais aussi le fait que l'on a déterminé deux paramètres à partir de l'échantillon.
    1. Pour le choix de classes donné en corrigé, on trouve maths avec maths.
    2. Pour le choix de classes donné en corrigé, on trouve maths avec maths.
    Dans les deux cas, le test est valide (le nombre théorique de visites vaut au moins maths pour chaque classe) et donne un maths réduit à peu près égal à zéro: l'écart entre la théorie et l'expérimentation est exactement l'écart le plus probable.


3 Loi "en masse"

  1. Appliquer la procédure
    recode:= proc(item) global m; local a,b,c;  
    a,b,c:= op(op(1,item)), op(2,item); Weight(a..b, c*(a+b)/2/m); end;
    à chacun des objets composant maths. Dresser l'histogramme de l'objet maths ainsi obtenu.
  2. Expliquer quelle est l'action de recode. En particulier, pourquoi divise-t-on par maths ? Cette procédure a comme résultat de pondérer chaque classe par sa valeur moyenne (arithmétique). On divise par l'espérance pour retrouver une masse totale comparable à l'effectif initial maths. Le poids total effectivement obtenu est maths.
  3. Calculer moyenne maths et variance maths de la nouvelle distribution. Examiner si les formules générales liant loi en nombre et loi en masse se vérifient sur l'exemple traité. Il y a deux relations de natures différentes. D'une part la relation

    maths

    qui est valable pour toute distribution positive et d'autre part les relations

    maths

    qui sont particulières à la loi lognormale.
    1. Pour les coefficients de variation, on trouve maths alors que maths. Pour les moyennes on a maths alors que maths.
    2. Pour les coefficients de variation, on trouve maths alors que maths. Pour les moyennes on a maths alors que maths.
    Le désaccord sur les moyennes doit être évalué par comparaison avec l'écart-type sur les moyennes d'échantillon. Dans les deux cas, on trouve

    maths

    Valeur qui est au seuil de rejet (probabilité de l'ordre de un pour mille).
  4. Visualiser maths et maths sur l'histogramme maths. Superposer la courbe de la loi lognormale maths correspondante. Il y avait deux interprétations possibles pour cette question : utiliser la loi lognormale de paramètres maths et maths ou bien la loi de paramètres maths et maths. Si l'on trace les deux, on constate que le premier choix (celui suggéré en TD) donne un bien meilleur accord (les paramètres ayant été l'objet d'une bien meilleure évaluation).
  5. Tracer l'histogramme de la répartition théorique associée à cette loi maths (et à la partition 2.3). Procéder à un test du maths pour comparer avec la répartition expérimentale. Il y a une difficulté concernant la gestion du dernier intervalle. On dispose des choix suivants :
    1. maths
    2. maths
    1. maths
    2. maths
    1. maths
    2. maths
    Le diagnostic est donc, selon le cas : rejet ferme, gros doute, absence de rejet. La comparaison des trois tests montre donc que le désaccord entre les histogrammes théorique et expérimental porte essentiellement sur le dernier intervalle, c'est à dire sur les très grandes valeurs de la variable.
  6. Comparer les résultats des tests 2.4 et 3.5. Le fait que l'accord sur la répartition "en nombre" soit bien meilleur que celui sur la répartition "en masse" s'explique aisément. Les données "en nombre" sont directement issues du processus expérimental, tandis que les données "en masse" sont inférées par un processus d'approximation.

4 Files d'attente

  1. Poser maths avec maths égal à votre date de naissance.
  2. Poser maths, maths et maths.
  3. Faire tourner le programme de simulation des files d'attente maths qui se trouve (vers la fin de) http://www.douillet.info/~douillet/cours/oprea.mws. Dans une file d'attente maths, les inter-arrivées et les services suivent des lois exponentielles, respectivement

    maths

    On obtient un générateur non uniforme en prenant l'image d'un générateur uniforme par la fonction icdf (fonction réciproque de la fonction de probabilité cumulée). Dans le cas exponentiel de paramètre maths on obtient, pour maths uniformément distribué dans maths :

    maths

  4. Utiliser un test du maths pour comparer la loi du temps de séjour donnée en cours et les résultats expérimentaux. Il faut commencer par choisir un découpage en classes. Le corrigé utilise dix classes dont les frontières sont choisies pour qu'elles aient le même poids maths. On trace les deux histogrammes et on procède au test du maths. On constate un "bon accord visuel" validant le fait que les temps de séjour maths (holding time) sont distribués exponentiellement selon

    maths

    et en même temps un mauvais score au maths (avec des valeurs réduites maths). En effet les temps de séjour ne sont pas indépendants les uns des autres (si un client doit attendre longtemps, le client suivant lui aussi devra attendre).

previous up next_inactive
Up: Return to previous menu


douillet@ensait.fr
2004-12-08