previous up next contents
Previous: Contents Up: Statistiques pour l'ingénieur Next: 2. Distributions bivariées   Contents

Subsections

1. Distributions statistiques univariées

1.1 Généralités sur les statistiques

L'objectif des stats-probas est d'examiner les relations entre des connaissances portant sur un "gros ensemble" $ \Omega$ (appelé population ou univers) et des connaissances portant sur un "petit sous-ensemble" $ \omega$ (appelé échantillon).

Les statistiques s'occupent d'ensembles finis (on appelle $ N$ la taille de $ \Omega$, et $ n$ la taille de $ \omega$), et partent de l'échantillon (qui a déjà été étudié) pour en tirer des conclusions sur la population globale.

Les probabilités partent de propriétés supposées de la population globale, pour en tirer des conclusions concernant un échantillon à venir. Les probabilités s'autorisent en outre l'étude de populations infinies... et il convient alors de gérer les ennuis qui en résultent.

Caractère statistique $ X,\, Y,\, Z$ qualitatif ou quantitatif et alors discret ou continu.

On remarquera qu'une mesure (physique) consiste non pas en un nombre (cette table fait un mètre) mais en un intervalle, par exemple (pour une mesure en centimètres) $ 0.995\, m<x<1.005\, m$. Une mesure introduit quasi inévitablement une discrétisation.

Univarié veut dire : on recense un seul caractère.

1.2 Histogramme

Definition 1.2.1   Histogramme. On porte le caractère en abscisse et l'effectif en surface.

Definition 1.2.2   DO (distribution observée). On reporte le nombre d'occurences de chaque valeur dans un tableau.

Definition 1.2.3   DG (distribution groupée). On fractionne l'ensemble des valeurs en intervalles disjoints (classes). Si "on groupe trop", on perd toute information. Si on "ne groupe pas assez", l'information utile est noyée sous le bruit (les informations inutiles).

Notation 1.2.4   Nous utiliserons $ x_{j}$ pour les valeurs, $ \left[a_{j},\, b_{j}\right[$ pour les classes, $ \widetilde{x_{j}}$ pour le représentant de la classe (souvent le milieu), $ n_{j}$ pour les effectifs, $ N=\sum n_{j}$ pour l'effectif total, $ f_{j}=\frac{n_{j}}{N}$ pour les fréquences.

Proposition 1.2.5   Les fréquences vérifient la relation :

$\displaystyle \forall i\,:\, f_{i}\geq0\quad;\qquad\sum_{i}f_{i}=1$ (1.1)

Remark 1.2.6   Il est préférable de choisir des séparations qui ne soient pas des valeurs atteintes, cela évite de discutailler sur la forme des intervalles.

Maple 1.2.7   Une "liste statistique" comportant $ x$ individus dans l'intervalle $ \left[a,\, b\right[$ et $ y$ individus valant $ c$ s'écrit : [Weight(a..b, x), Weight(c, y) ]

Maple 1.2.8   Pour regrouper ensemble les valeurs exactement égales d'une liste statistique donnée, on utilise la commande tally. Pour découper en classes une liste statistique donnée, on commence par construire une liste d'intervalles lc puis on utilise la commande tallyinto(li, lc) ;

Example 1.2.9   La TAB. 1.1 donne le relevé des temps nécessaires au piqûrage de carpettes dans un atelier de fabrication de tapis. On remarquera que le groupement des durées par intervalles de $ 3.5$ minutes est un artifice destiné à produire $ 7$ classes. Un groupement par intervalles de $ 3$ minutes ferait apparaître $ 8$ classes. L'histogramme associé est donné FIG. 1.1.


TAB. 1.1: Distribution des temps de piqûrage.
\begin{tabular}{\vert c\vert c\vert}
\hline
durée (mn)&
effectif\tabularnewline...
... \tabularnewline
\hline
21.0 .. 24.5 &
3\tabularnewline
\hline
\end{tabular}



FIG. 1.1: Histogramme des temps (aire totale =1).
% latex2html id marker 7735
\includegraphics[width=0.5\columnwidth,height=0.2\paperwidth]{figures/carpette_01}

Maple 1.2.10  

Par défaut, la commande histo(li) trace un histogramme en fréquences (aire totale =1). Pour obtenir un histogramme en effectifs (aire=1 pour un individu, cf FIG. 1.2), utiliser

histo(li, area=count) ;

FIG. 1.2: Histogramme des temps (aire =1 par individu).
% latex2html id marker 7748
\includegraphics[width=0.5\columnwidth,height=0.2\paperwidth]{figures/carpette_nn}

1.3 Quelques commandes Scilab

Exercise 1.3.1   Examiner ce que donne 1/m lorsque la matrice m n'est pas carrée.

Exercise 1.3.2   Lire le fichier nist-ceramic.txt, extrait de Natrella (1963). Récupérer la dernière colonne. En tracer l'histogramme. Mettre un titre.

Exercise 1.3.3   Que donne curax=gca() ? Que donne curh=curax.children(1).children ? Comment obtenir des barres vertes entourées de bleu ?

1.4 Paramètres de dispersion

Definition 1.4.1   Pour une distribution univariée, on se donne pour objectif de ne garder que deux nombres, l'un décrivant "le centre" de la distribution et l'autre son étendue. Ces deux nombres portent le nom collectif de "paramètres de dispersion".

Comme pour un triangle, il y a plusieurs façons d'estimer quel est le centre...

1.5 Souvenirs, souvenirs

Du temps où les calculs se faisaient à la main, nous sont parvenues diverses méthodes "sans calcul".

Remark 1.5.1   Défaut irréparable : ces quantités ne sont pas associatives . Deuxième défaut : ces "méthodes sans calcul" nécessitent en fait une certaine dose de "calcul mental"...

Definition 1.5.2   La médiane est la valeur associée à la place du milieu. Le nombre d'individus placés avant la valeur donnée est égal au nombre d'individus placés après.

Definition 1.5.3   Les quartiles sont les valeurs associées aux places $ 1N/4$, $ 2N/4$ et $ 3N/4$. Le 2-ème quartile est donc la médiane. L'intervalle interquartile est l'intervalle séparant le premier et le troisième quartile.

Maple 1.5.4   Le quartile numéro $ k$ de la liste li s'obtient par la commande
stats[describe, quartile[k]](li) ;

Definition 1.5.5   Le mode est la valeur associée à la plus grande fréquence.

Exercise 1.5.6   Calculer médiane, quartiles et mode associés à la distribution de la FIG. 1.1.

Definition 1.5.7   Effectifs cumulés croissants : on place les points $ \left(x,\,Pr\left(X\leq x\right)\right)$.
Effectifs cumulés décroissants : on place les points $ \left(x,\,Pr\left(X\ge x\right)\right)$. On obtient la FIG. 1.3.

Remark 1.5.8   A nouveau : lorsque l'on regroupe les données dans des classes, il est intéressant de choisir pour bornes des valeurs qui ne sont pas atteintes, de façon à ne pas avoir à gérer ce qui se passe aux bornes.

Exercise 1.5.9   Tracer les deux polygones des effectifs cumulés. Les utiliser pour retrouver la médiane.

FIG. 1.3: Cumuls croissant et décroissant.
% latex2html id marker 7894
\includegraphics[width=0.5\columnwidth,height=0.2\paperwidth]{figures/carpette_cumul}

1.6 Moyenne

Definition 1.6.1   La moyenne d'une liste statistique s'obtient par somme pondérée (barycentre). On a donc

$\displaystyle \mathrm{moy}\left(x\right)=\frac{1}{N}\sum n_{i}\, x_{i}=\sum f_{i}\, x_{i}$

Dans la partie "probas" du domaine stats/probas, cette même quantité se note $ \mathrm{E}\left(X\right)$ (espérance de la variable $ x$).

Maple 1.6.2   La moyenne s'obtient par l'opérateur moy, que l'on définit par la commande :
macro(moy=stats[describe, mean]) ;

Exercise 1.6.3   Calculer la moyenne de la distribution ci-dessus.

Proposition 1.6.4   L'espérance est un opérateur linéaire :

$\displaystyle \mathrm{moy}\left(x+\lambda\right)=\mathrm{moy}\left(x\right)+\la...
...t}\quad\mathrm{moy}\left(\lambda\, x\right)=\lambda\,\mathrm{moy}\left(x\right)$

Exercise 1.6.5   Reprendre le calcul ci-dessus en utilisant un changement de variable.

Definition 1.6.6   La quantité $ x-\mathrm{moy}\left(x\right)$ s'appelle la variable centrée, ou encore l'écart à la moyenne. La quantité $ x-a$ s'appelle l'écart par rapport à la valeur $ a$.

Proposition 1.6.7   La moyenne des écarts à la moyenne est nulle.

1.7 Variance

Proposition 1.7.1   Formule des "degrés de liberté".

$\displaystyle \sum_{1}^{4}\left(x_{i}-a\right)^{2}=4\left(a-\frac{1}{4}\left(x_{1}+x_{2}+x_{3}+x_{4}\right)\right)^{2}+\qquad\qquad\qquad\qquad\qquad\qquad$

$\displaystyle +\frac{3}{4}\left(x_{4}-\frac{1}{3}\left(x_{1}+x_{2}+x_{3}\right)...
...}{2}\left(x_{1}+x_{2}\right)\right)^{2}+\frac{1}{2}\left(x_{4}-x_{3}\right)^{2}$

Le rang d'une forme quadratique est le nombre de carrés de formes linéaires indépendantes nécessaires pour constituer la forme quadratique considérée. On voit que le choix $ a=\mathrm{moy}\left(x\right)$ minimise cette expression, et fait passer le nombre de carrés à $ n-1$ au lieu de $ n$.

Definition 1.7.2   Variance : on pose $ \mathrm{var}\left(x\right)=\frac{1}{N}\sum n_{i}\left(x_{i}-\mathrm{moy}\left(x\right)\right)^{2}$.

Maple 1.7.3   La variance s'obtient par l'opérateur var, que l'on définit par la commande :
macro(var=stats[describe, variance]) ;

Scilab 1.7.4   La commande Scilab mean donne la moyenne, et la commande Scilab variance ne donne pas la variance.

Exercise 1.7.5   Calculer la variance de la distribution donnée en exemple.

Proposition 1.7.6   La variance vérifie les formules :

$\displaystyle \mathrm{var}\left(x+\lambda\right)=\mathrm{var}\left(x\right)\qua...
...\quad\mathrm{var}\left(\lambda\, x\right)=\lambda^{2}\mathrm{var}\left(x\right)$

Exercise 1.7.7   Reprendre le calcul ci-dessus en utilisant un changement de variable.

Proposition 1.7.8 (Koenig)   Formule de calcul :

$\displaystyle \mathrm{var}\left(x\right)=\mathrm{moy}\left(x^{2}\right)-\left(\mathrm{moy}\left(x\right)\right)^{2}$ (1.2)

Scilab 1.7.9   Lorsque $ M$ est une matrice contenant une donnée par case, la variance de ces données vaut : mean(M.*M)-mean(M)^ 2

Remark 1.7.10   En attendant le cours sur les intervalles de confiance, il est convenu de représenter la dispersion d'une population en reportant une fois l'écart-type de part et d'autre de la moyenne (FIG. 1.4).

FIG. 1.4: Représentation des paramètres de dispersion
% latex2html id marker 8062
\includegraphics[width=100mm,height=50mm]{figures/ceram_histo-sav}

Proposition 1.7.11 (Huygens)   Pour toute constante $ a\in\mathbb{R}$ :

$\displaystyle \mathrm{moy}\left(\left(x-a\right)^{2}\right)=\mathrm{var}\left(x\right)+\left(a-\mathrm{moy}\left(x\right)\right)^{2}$ (1.3)

Exercise 1.7.12   Regroupement de données. On suppose connues les moyennes et les variances de deux populations disjointes $ \Omega_{1}$ et $ \Omega_{2}$. Donner la moyenne et la variance de $ \Omega=\Omega_{1}\cup\Omega_{2}$.

Remark 1.7.13   Cet Exercice 1.7.12 est sorti à chacun des DS des années précédentes.

Definition 1.7.14   L'écart-type est défini par $ \sigma\left(x\right)=\sqrt{\mathrm{var}\left(x\right)}$. Est de même dimension que $ x$. Le calcul de moyenne des carrés augmente le poids des grands écarts.

Definition 1.7.15   La variable réduite associée à une variable $ x$ est définie par :

$\displaystyle \xi=\frac{x-\overline{x}}{\sigma}$

Cette quantité est une variable sans dimensions, concept essentiel pour pouvoir comparer des populations ayant des natures différentes.

1.8 Exemples

Calculer les paramètres de dispersion et tracer les graphes :

Exercise 1.8.1   La TAB. 1.2 donne la distribution des longueurs de 300 fibres à l'appareil WIRA.


TAB. 1.2: Appareil WIRA
\begin{centering}\begin{tabular}{\vert c\vert c\vert\vert c\vert c\vert}
\hline ...
...
7.5~..~8&
47&
11.5~..~12&
1\tabularnewline
\hline
\end{tabular}\end{centering}


Exercise 1.8.2   Le tableau ci-dessous donne la liste des années de naissance de chacun des 32 membres d'un atelier. Entreprendre le traitement statistique de ces données. Recommencer en groupant les dates de naissance par classes de quatre années, en commençant par l'année 1940. Comparer les résultats.

\begin{tabular}{cccccccc}
1948&
1946&
1946&
1945&
1953&
1953&
1951&
1950\tabular...
...ne
1958&
1945&
1949&
1955&
1962&
1957&
1946&
1951\tabularnewline
\end{tabular}

Exercise 1.8.3   Le tableau ci-dessous donne la répartition des salariés d'une certaine entreprise en fonction de leur salaire. Moyenne, écart-type ?

\vspace{0.3cm}
\par
\begin{center}\begin{tabular}{\vert c\vert c\vert c\vert c\v...
...
60&
55&
35\tabularnewline
\hline
\end{tabular}\end{center}\par
\vspace{0.3cm}


previous up next contents
Previous: Contents Up: Statistiques pour l'ingénieur Next: 2. Distributions bivariées   Contents


douillet@ensait.fr
2007-12-14