previous up next contents
Previous: Statistiques pour l'ingénieur Up: Statistiques pour l'ingénieur Next: 2 Distributions bivariées   Contents

Subsections

1 Distributions statistiques univariées

1.1 Généralités sur les statistiques

  1. L'objectif des stats probas est d'examiner les relations entre des connaissances portant sur un ``gros ensemble'' appelé population, ou univers, noté $ \Omega $, et des connaissances portant sur un ``petit sous-ensemble'' appelé échantillon, que nous noterons $ \omega $.
  2. Les statistiques s'occupent d'ensembles finis (on appelle $ N $ la taille de $ \Omega $, et $ n$ la taille de $ \omega $), et partent de l'échantillon (qui a déjà été étudié) pour en tirer des conclusions sur la population globale.
  3. Les probabilités partent de propriétés supposées de la population globale, pour en tirer des conclusions concernant un échantillon à venir. Les probabilités s'autorisent en outre l'étude de populations infinies... et il convient alors de gérer les ennuis qui en résultent.
  4. Caractère statistique $ X,  Y,  Z $ qualitatif ou quantitatif et alors discret ou continu.
  5. On remarquera qu'une mesure (physique) consiste non pas en un nombre (cette table fait un mètre) mais en un intervalle, par exemple (pour une mesure en centimètres) $ 0.995  m<x<1.005  m $. Une mesure introduit quasi inévitablement une discrétisation.
  6. Univarié veut dire : on recense un seul caractère.

1.2 Histogramme

  1. Définition : histogramme. On porte le caractère en abscisse et l'effectif en surface.
  2. Définition : DO (distribution observée). On reporte le nombre d'occurences de chaque valeur dans un tableau.
  3. Définition : DG (distribution groupée). On fractionne l'ensemble des valeurs en intervalles disjoints (classes). Si l'on ``groupe de trop'', on perd toute information. Si l'on ne ``groupe pas assez'', l'information utile est noyée sous le bruit (les informations inutiles).
  4. Notations : $ x_{j} $ les valeurs, $ \left] a_{j},  b_{j}\right] $ pour les classes, $ \widetilde{x_{j}} $ pour le représentant de la classe (souvent le milieu), $ n_{j} $ pour les effectifs, $ N=\sum n_{j} $ pour l'effectif total, $ f_{j}=\frac{n_{j}}{N} $ pour les fréquences.
  5. Remarque. Il est préférable de choisir des séparations qui ne soient pas des valeurs atteintes, cela évite de discutailler sur la forme des intervalles.
  6. Exemple. Le tableau suivant donne le relevé des temps nécessaires au piqûrage de carpettes dans un atelier de fabrication de tapis. On remarquera que le groupement des durées par intervalles de $ 3.5 $ minutes est un artifice destiné à produire $ 7 $ classes. Un groupement par intervalles de $ 3 $ minutes ferait apparaître $ 8 $ classes.


durée (mn) effectif
0. .. 3.5 1
3.5 .. 7.0 9
7.0 .. 10.5 37
10.5 .. 14.0 59
14.0 .. 17.5 40
17.5 .. 21.0 11
21.0 .. 24.5 3



Figure 1: Histogramme des temps.
\resizebox*{0.5\columnwidth}{0.2\textheight}{\includegraphics{figures/carpette01.eps}}

1.3 Paramètres de dispersion

  1. Objectif. Ne plus garder que deux nombres, l'un décrivant ``le centre'' de la distribution et l'autre son étendue. Comme pour un triangle, il y a plusieurs façons d'estimer quel est le centre...
  2. Souvenirs du passé. Du temps où les calculs se faisaient à la main, nous sont parvenues diverses méthodes ``sans calcul''. Défaut irréparable : ces quantités ne sont pas associatives.
  3. Définition : médiane. La médiane est la valeur associée à la place du milieu. Le nombre d'individus placés avant la valeur donnée est égal au nombre d'individus placés après.
  4. Définition : interquartile. Les quartiles sont les valeurs associées aux places $ 1N/4 $, $ 2N/4 $ et $ 3N/4 $. Le ème quartile est donc la médiane. L'intervalle interquartile est l'intervalle séparant le premier et le troisième quartile.
  5. Définition : mode. Le mode est la valeur associée à la plus grande fréquence.
    exo 1.  Calculer médiane, quartiles et mode associés à la distribution de la FIG. 1.
  6. Histogramme des effectifs, polygone des effectifs cumulés (croissants et décroissants). exo 2.  Tracer les deux polygones des effectifs cumulés. Les utiliser pour retrouver la médiane.

1.4 Moyenne

  1. Définition : moyenne. On pose $ \mathrm{moy}\left( x \right) =\frac{1}{N}\sum n_{i}  x_{i}=\sum f_{i}  x_{i} $.
    exo 3.  Calculer la moyenne de la distribution ci-dessus.
  2. Propriétés : $ \mathrm{moy}\left( x+\lambda \right) =\mathrm{moy}\left( x \right) +\lambda $ et $ \mathrm{moy}\left( \lambda   x \right) =\lambda   \mathrm{moy}\left( x \right) $.

    exo 4.  Reprendre le calcul ci-dessus en utilisant un changement de variable.
    exo 5.  Regroupement de données. On suppose connues les moyennes de deux populations disjointes $ \Omega _{1} $ et $ \Omega _{2} $. Donner la moyenne de $ \Omega =\Omega _{1}\cup \Omega _{2} $.

  3. Définition : écart. La quantité $ x-\mathrm{moy}\left( x \right) $ s'appelle la variable centrée, ou encore l'écart à la moyenne. La quantité $ x-a $ s'appelle l'écart par rapport à la valeur $ a $.
  4. Propriété. La moyenne des écarts à la moyenne est nulle.

1.5 Variance

  1. Propriété (formule des ``degrés de liberté'').

    $\displaystyle \sum _{1}^{4}\left( x_{i}-a\right) ^{2}=4\left( a-\frac{1}{4}\lef...
..._{2}+x_{3}+x_{4}\right) \right) ^{2}+\qquad \qquad \qquad \qquad \qquad \qquad $

    $\displaystyle +\frac{3}{4}\left( x_{4}-\frac{1}{3}\left( x_{1}+x_{2}+x_{3}\righ...
...left( x_{1}+x_{2}\right) \right) ^{2}+\frac{1}{2}\left( x_{4}-x_{3}\right) ^{2}$

    Le rang d'une forme quadratique est le nombre de carrés de formes linéaires indépendantes nécessaires pour constituer la forme quadratique considérée. On voit que le choix $ a=\mathrm{moy}\left( x \right) $ minimise cette expression, et fait passer le nombre de carrés à $ n-1 $ au lieu de $ n$.
  2. Définition : variance. On pose $ \mathrm{var}\left( x \right) =\frac{1}{N}\sum n_{i}\left( x_{i}-\mathrm{moy}\left( x \right) \right) ^{2} $.
    exo 6.  Calculer la variance de la distribution donnée en exemple.
  3. Propriétés : $ \mathrm{var}\left( x+\lambda \right) =\mathrm{var}\left( x \right) $ et $ \mathrm{var}\left( \lambda   x \right) =\lambda ^{2}\mathrm{var}\left( x \right) $.
    exo 7.  Reprendre le calcul ci-dessus en utilisant un changement de variable.
  4. Formule de calcul (Koenig) $ \mathrm{var}\left( x \right) =\mathrm{moy}\left( x^{2} \right) -\left( \mathrm{moy}\left( x \right) \right) ^{2} $.
    exo 8.  Regroupement de données. On suppose connues les variances de deux populations disjointes $ \Omega _{1} $ et $ \Omega _{2} $. Donner la variance de $ \Omega =\Omega _{1}\cup \Omega _{2} $.
  5. Définition : écart-type. $ \sigma \left( x\right) =\sqrt{\mathrm{var}\left( x \right) } $. Est de même dimension que $ x$. Le calcul de moyenne des carrés augmente le poids des grands écarts.
  6. Définition : variable réduite. On pose $ \xi =\frac{x-\overline{x}}{\sigma } $. Cette quantité est une variable sans dimensions, concept essentiel pour pouvoir comparer deux populations de natures différentes.

1.6 Exemples

Calculer les paramètres de dispersion et tracer les graphes :

exo 9.  Le tableau ci-dessous donne la distribution des longueurs de 300 fibres à l'appareil WIRA.



classes effectifs classes effectifs
4 .. 4.5 2 8 .. 8.5 42
4.5 .. 5 2 8.5 .. 9 36
5 .. 5.5 3 9 .. 9.5 49
5.5 .. 6 6 9.5 .. 10 22
6 .. 6.5 9 10 .. 10.5 16
6.5 .. 7 15 10.5 .. 11 6
7 .. 7.5 42 11 .. 11.5 2
7.5 .. 8 47 11.5 .. 12 1



exo 10.  La liste des années de naissance de chacun des 32 membres d'un atelier s'établit comme suit.



1948 1946 1946 1945 1953 1953 1951 1950
1950 1956 1957 1949 1940 1949 1948 1960
1944 1953 1941 1956 1942 1956 1963 1954
1958 1945 1949 1955 1962 1957 1946 1951



Entreprendre le traitement statistique de ces données. Recommencer en groupant les dates de naissance par classes de quatre années, en commençant par l'année 1940. Comparer les résultats.

exo 11.  Le tableau ci-dessous donne la répartition des salariés d'une certaine entreprise en fonction de leur salaire.



salaire moins de 60 60 à 72 72 à 84 84 à 102 120 à 180 plus de 180
nombre 12 23 39 60 55 35




previous up next contents
Previous: Statistiques pour l'ingénieur Up: Statistiques pour l'ingénieur Next: 2 Distributions bivariées   Contents


douillet@ensait.fr
2002-11-20