Previous: Contents
Up: Statistiques pour l'ingénieur
Next: 2. Distributions bivariées
  Contents
Subsections
L'objectif des stats-probas est d'examiner les relations entre des
connaissances portant sur un "gros ensemble"
(appelé population ou univers) et des connaissances portant sur un
"petit sous-ensemble"
(appelé échantillon).
Les statistiques s'occupent d'ensembles finis (on appelle
la
taille de
, et
la taille de
), et partent de
l'échantillon (qui a déjà été étudié) pour en tirer des conclusions
sur la population globale.
Les probabilités partent de propriétés supposées de la population
globale, pour en tirer des conclusions concernant un échantillon à
venir. Les probabilités s'autorisent en outre l'étude de populations
infinies... et il convient alors de gérer les ennuis qui en résultent.
Caractère statistique
qualitatif ou quantitatif et
alors discret ou continu.
On remarquera qu'une mesure (physique) consiste non pas en un nombre
(cette table fait un mètre) mais en un intervalle, par exemple (pour
une mesure en centimètres)
. Une mesure introduit
quasi inévitablement une discrétisation.
Univarié veut dire : on recense un seul caractère.
Definition 1.2.1
Histogramme. On porte le caractère en abscisse et l'effectif en surface.
Definition 1.2.2
DO (distribution observée). On reporte le nombre d'occurences de chaque
valeur dans un tableau.
Definition 1.2.3
DG (distribution groupée). On fractionne l'ensemble des valeurs en
intervalles disjoints (classes). Si "on groupe trop",
on perd toute information. Si on "ne groupe pas assez",
l'information utile est noyée sous le bruit (les informations inutiles).
Notation 1.2.4
Nous utiliserons

pour les valeurs,

pour les classes,

pour le représentant de la
classe (souvent le milieu),

pour les effectifs,

pour l'effectif total,

pour les fréquences.
Proposition 1.2.5
Les fréquences vérifient la relation :
 |
(1.1) |
Remark 1.2.6
Il est préférable de choisir des séparations qui ne soient pas des
valeurs atteintes, cela évite de discutailler sur la forme des intervalles.
Maple 1.2.7
Une "liste statistique" comportant

individus
dans l'intervalle

et

individus valant

s'écrit :
[Weight(a..b, x), Weight(c, y) ]
Maple 1.2.8
Pour regrouper ensemble les valeurs exactement égales d'une liste
statistique donnée, on utilise la commande tally. Pour découper
en classes une liste statistique donnée, on commence par construire
une liste d'intervalles lc puis on utilise la commande tallyinto(li,
lc) ;
Example 1.2.9
La T
AB. 1.1 donne le relevé des temps
nécessaires au piqûrage de carpettes dans un atelier de fabrication
de tapis. On remarquera que le groupement des durées par intervalles
de

minutes est un artifice destiné à produire

classes.
Un groupement par intervalles de

minutes ferait apparaître

classes. L'histogramme associé est donné F
IG. 1.1.
TAB. 1.1:
Distribution des temps de piqûrage.
|
|
FIG. 1.1:
Histogramme des temps (aire totale =1).
|
|
Maple 1.2.10
Par défaut, la commande histo(li) trace un histogramme en
fréquences (aire totale =1). Pour obtenir un histogramme en effectifs
(aire=1 pour un individu, cf FIG. 1.2), utiliser
-
- histo(li, area=count) ;
FIG. 1.2:
Histogramme des temps (aire =1 par individu).
|
|
- [Egalité] 1==1 répond T et 1==2 répond
F car il s'agit d'un test d'égalité.
- [Nommage] x=1==2 répond x=F : dans la boite nommée
x on stocke la valeur de 1==2 c'est à dire F
(affectation)
- [Taille] size(4) répond 1 1 car le nombre 4
est en fait une matrice de taille
- [Vecteurs] il n'y a pas de vecteurs, mais des matrices filiformes
(à deux dimensions)
- [Matrices] constructeur a=[1,2;3,4]. Accès "matriciel"
et accès "vectoriel" (colonne de colonnes). Pas
de produit sans concordance dimensionnelle.
- [Fichiers] mopen, mgetline, mclose
- [Strings] msscanf, sprintf
- [Histo] histplot
Exercise 1.3.1
Examiner ce que donne 1/m lorsque la matrice m n'est
pas carrée.
Exercise 1.3.2
Lire le fichier nist-ceramic.txt, extrait de
Natrella (1963).
Récupérer la dernière colonne. En tracer l'histogramme. Mettre un
titre.
Exercise 1.3.3
Que donne curax=gca() ? Que donne curh=curax.children(1).children ?
Comment obtenir des barres vertes entourées de bleu ?
Definition 1.4.1
Pour une distribution univariée, on se donne pour objectif de ne garder
que deux nombres, l'un décrivant "le centre" de
la distribution et l'autre son étendue. Ces deux nombres portent le
nom collectif de "paramètres de dispersion".
Comme pour un triangle, il y a plusieurs façons d'estimer quel est
le centre...
Du temps où les calculs se faisaient à la main, nous sont
parvenues diverses méthodes "sans calcul".
Remark 1.5.1
Défaut irréparable : ces quantités ne sont pas associatives . Deuxième
défaut : ces "méthodes sans calcul" nécessitent
en fait une certaine dose de "calcul mental"...
Definition 1.5.2
La médiane est la valeur associée à la place du milieu. Le nombre
d'individus placés avant la valeur donnée est égal au nombre d'individus
placés après.
Definition 1.5.3
Les quartiles sont les valeurs associées aux places

,

et

. Le 2-ème quartile est donc la médiane. L'intervalle interquartile
est l'intervalle séparant le premier et le troisième quartile.
Maple 1.5.4
Le quartile numéro

de la liste
li s'obtient par la commande
stats[describe, quartile[k]](li) ;
Definition 1.5.5
Le mode est la valeur associée à la plus grande fréquence.
Exercise 1.5.6
Calculer médiane, quartiles et mode associés à la distribution de
la F
IG. 1.1.
Definition 1.5.7
Effectifs cumulés croissants : on place les points

.
Effectifs cumulés décroissants : on place les points

.
On obtient la F
IG. 1.3.
Remark 1.5.8
A nouveau : lorsque l'on regroupe les données dans des classes, il
est intéressant de choisir pour bornes des valeurs qui ne sont pas
atteintes, de façon à ne pas avoir à gérer ce qui se passe aux bornes.
Exercise 1.5.9
Tracer les deux polygones des effectifs cumulés. Les utiliser pour
retrouver la médiane.
FIG. 1.3:
Cumuls croissant et décroissant.
|
|
Definition 1.6.1
La moyenne d'une liste statistique s'obtient par somme pondérée (barycentre).
On a donc
Dans la partie "probas" du domaine stats/probas,
cette même quantité se note

(espérance de la variable

).
Maple 1.6.2
La moyenne s'obtient par l'opérateur moy, que l'on définit
par la commande :
macro(moy=stats[describe, mean]) ;
Exercise 1.6.3
Calculer la moyenne de la distribution ci-dessus.
Proposition 1.6.4
L'espérance est un opérateur linéaire :
Exercise 1.6.5
Reprendre le calcul ci-dessus en utilisant un changement de variable.
Definition 1.6.6
La quantité

s'appelle la variable centrée, ou encore
l'écart à la moyenne. La quantité

s'appelle l'écart par rapport
à la valeur

.
Proposition 1.6.7
La moyenne des écarts à la moyenne est nulle.
Proposition 1.7.1
Formule des "degrés de liberté".
Le rang d'une forme quadratique est le nombre de carrés de formes
linéaires indépendantes nécessaires pour constituer la forme quadratique
considérée. On voit que le choix
minimise cette expression,
et fait passer le nombre de carrés à
au lieu de
.
Definition 1.7.2
Variance : on pose

.
Maple 1.7.3
La variance s'obtient par l'opérateur var, que l'on définit
par la commande :
macro(var=stats[describe, variance]) ;
Scilab 1.7.4
La commande Scilab mean donne la moyenne, et la commande
Scilab variance ne donne pas la variance.
Exercise 1.7.5
Calculer la variance de la distribution donnée en exemple.
Proposition 1.7.6
La variance vérifie les formules :
Exercise 1.7.7
Reprendre le calcul ci-dessus en utilisant un changement de variable.
Proposition 1.7.8 (Koenig)
Formule de calcul :
 |
(1.2) |
Scilab 1.7.9
Lorsque

est une matrice contenant une donnée par case, la variance
de ces données vaut :
mean(M.*M)-mean(M)^ 2
Remark 1.7.10
En attendant le cours sur les intervalles de confiance, il est convenu
de représenter la dispersion d'une population en reportant une fois
l'écart-type de part et d'autre de la moyenne (F
IG. 1.4).
FIG. 1.4:
Représentation des paramètres de dispersion
|
|
Exercise 1.7.12
Regroupement de données. On suppose
connues les moyennes et les variances de deux populations disjointes

et

. Donner la moyenne et la variance de

.
Remark 1.7.13
Cet Exercice
1.7.12 est sorti à chacun des
DS des années précédentes.
Definition 1.7.14
L'écart-type est défini par

.
Est de même dimension que

. Le calcul de moyenne des carrés augmente
le poids des grands écarts.
Definition 1.7.15
La variable réduite associée à une variable

est définie par :
Cette quantité est une variable sans dimensions, concept essentiel
pour pouvoir comparer des populations ayant des natures différentes.
Calculer les paramètres de dispersion et tracer les graphes
:
Exercise 1.8.1
La T
AB. 1.2 donne la distribution des longueurs
de 300 fibres à l'appareil WIRA.
TAB. 1.2:
Appareil WIRA
|
Exercise 1.8.2
Le tableau ci-dessous donne la liste des années de naissance de chacun
des 32 membres d'un atelier. Entreprendre le traitement statistique
de ces données. Recommencer en groupant les dates de naissance par
classes de quatre années, en commençant par l'année 1940. Comparer
les résultats.
Exercise 1.8.3
Le tableau ci-dessous donne la répartition des salariés d'une certaine
entreprise en fonction de leur salaire. Moyenne, écart-type ?
Previous: Contents
Up: Statistiques pour l'ingénieur
Next: 2. Distributions bivariées
  Contents
douillet@ensait.fr
2007-12-14