Previous: Contents
Up: Aide à la décision
Next: 2. Loi et test
  Contents
Subsections
Definition 1.1.1
Prélever un échantillon

de taille

au sein d'une population

consiste à fournir une suite de

instanciations
indépendantes
de

. Il s'agit donc d'une suite de

variables indépendantes
et identiquement distribuées (iid). Lorsque l'on prélève un échantillon
au sein d'une population finie, l'indépendance nécessite que l'on
puisse sélectionner le même individu plusieurs fois de suite (tirage
avec remise).
Notation 1.1.2
Dans ce qui suit, nous utilisons (sauf erreur ou omission) les notations
suivantes :
- La population globale est notée
, ses paramètres de dispersion
,
sont notés
,
et, lorsque
cette population est finie, son effectif est noté
.
- L'échantillon prélevé est noté
, sa taille
et ses paramètres
de dispersion
.
- Enfin, nos meilleures estimations pour
,
connaissant
sont notées
. Il se trouve que
, tandis que
Remark 1.1.3
L'hypothèse d'indépendance est indispensable pour
appliquer tout ce qui suit. Par exemple un contrôle qualité qui ne
vérifierait que le dessus d'une palette, ou qui serait effectué à
heure fixe...
Definition 1.1.4
Les probabilités consistent à partir de la distribution supposée connue
de la population

et à en déduire la distribution de probabilité
sur l'ensemble

de tous les tirages avec remise
de taille

: on veut prévoir le comportement d'un échantillon
non encore sélectionné.
Definition 1.1.5
Les statistiques consistent à partir des propriétés d'un échantillon
déjà sélectionné et à en inférer des propriétés de la population totale.
Remark 1.1.6
La population

n'est rien d'autre que la population des échantillons
de taille

.
Remark 1.2.1
L'objectif est d'utiliser les paramètres de dispersion d'un échantillon
pour obtenir des estimations

des paramètres

de la population. Bien distinguer les statuts de ces trois sortes
de nombres : les paramètres de l'échantillon sont réels et connus
tandis que les paramètres de la population sont réels et inconnus.
Enfin les quantités

sont connues mais fictives : ce
sont des estimations (probabilistes) de grandeurs existantes, mais
non connues.
Remark 1.2.2
Considération d'ordre économique : si l'on procède à un test destructif,
il serait déraisonnable de ne pas avoir

. Dans tout les cas,
le coût du test est proportionnel à

, tandis que la précision
est (le plus souvent) en

, c'est à dire que deux fois plus
précis coûte quatre fois plus cher. Le dimensionnement est l'une des
questions à se poser.
Theorem 1.2.3 (Echantillonage de la moyenne)
La moyenne
d'un échantillon est
une nouvelle variable aléatoire. Et l'on a :
 |
(1.1) |
Remark 1.2.4
La propriété

montre que

peut servir à estimer
la moyenne de la population. Le fait que

montre que la précision augmente avec

.
Exercise 1.2.5
Démontrer les formules
1.1.
Exercise 1.2.6
Application aux échantillons formés par

lancers successifs
d'un dé équilibré.
Proposition 1.2.7
La variance
des éléments d'un échantillon de taille
est une nouvelle variable aléatoire. Son espérance est
.
Exercise 1.2.8
Démontrer le résultat précédent en partant de

et utilisant la formule de Koenig (en effet,

n'est pas la moyenne
de l'échantillon).
Definition 1.2.9
On définit

(meilleure prévision pour la variance globale)
par

.
Exercise 1.2.11
Appliquer ces théorèmes aux échantillons formés par

lancers
successifs d'un dé équilibré.
Remark 1.2.12
La quantité

n'est ni la variance de l'échantillon (

),
ni la variance de la population (

). Cette quantité

est un estimateur de la variance globale, obtenu à partir de la variance
de l'échantillon.
Definition 1.2.13
Intervalle de confiance. On appelle intervalle de confiance (pour
un seuil de décision

donné) un intervalle

tel que

.
Remark 1.2.14
Le choix du seuil de décision

ou, ce qui revient au même,
du seuil de risque

est évidemment une étape cruciale
dans tout processus de décision.
Definition 1.2.15 (Facteur de couverture)
Lorsqu'un intervalle de confiance sur une
variable

avec

et

est écrit sous la forme
la quantité

s'appelle le facteur de couverture.
Definition 1.2.16 (Facteur de Fisher)
Lorsqu'un intervalle de confiance sur une variable

avec

et

est écrit sous la forme
la quantité

s'appelle le facteur de Fisher.
Remark 1.2.17
Caveat : lorsque la "variable" est la valeur moyenne

d'un échantillon, il ne faut pas oublier que l'écart-type à prendre
en compte
n'est pas l'écart-type des individus (usuellement
noté

), mais l'écart-type concernant la variable

, c'est
à dire :
Remark 1.2.18
Pour un seuil de confiance donné, on a

: la quantité

n'étant
qu'un estimateur de

, il faut augmenter la taille de l'intervalle.
Proposition 1.2.20
Le facteur de couverture suit approximativement la loi normale réduite
(loi de Gauss) dès que l'une des deux hypothèses suivantes est vérifiée :
(i) la population est approximativement distribuée selon la loi normale
(indépendamment de la taille de l'échantillon)
(ii) n est assez grand pour que le TCL s'applique (indépendamment
de la loi de la population)
Example 1.3.1
On extrait un échantillon de taille

à partir d'une population

,

. On trouve

. On a

et

, soit une valeur réduite de

. En appliquant
le modèle normal,

.
Example 1.3.2
On suppose que

. Un premier échantillon, de taille

,
donne

et un deuxième échantillon, de taille

et prélevé indépendamment, donne

. On pose

.
Si les deux échantillons ont été prélevés dans une même population,
on a

et

+

.
La variable réduite est dont

. Si
l'on utilise le modèle normal, les variables

et

sont indépendantes et normales : leur somme est normale... et

est de l'ordre de

.
Remark 1.3.3
Dans le premier exemple, nous avons obtenu

,
ne prouvant rien du tout. Dans le deuxième exemple,
nous avons obtenu

,
prouvant
que

et donc suggérant de rejeter l'hypothèse

.
Remark 1.3.4
Il convient de fixer clairement l'hypothèse testée, et de fixer le
seuil de sécurité voulu. La conclusion est alors "rien ne
prouve qu'il faille rejeter l'hypothèse" ou bien "vu
le seuil fixé, l'hypothèse doit être rejetée".
Exercise 1.3.5
On obtient

fois pile en

lancers d'une pièce de monnaie.
Que peut-on conclure ?
Exercise 1.3.6
Voici les résultats de 40 lancers de pile ou face
Déterminer la moyenne

de cet échantillon. Utiliser cette valeur
pour tester, au seuil de confiance de

, l'hypothèse

selon
laquelle la pièce est bien équilibrée.
Exercise 1.3.7
Déterminer le prédicteur de variance

associé à l'échantillon
précédent. Utiliser cette valeur, ainsi que la formule du cours, pour
tester l'hypothèse

au seuil de confiance de

.
Exercise 1.3.8
Calculer le coefficient d'auto-corrélation de cette suite, c'est à
dire le coefficient de corrélation des couples

(on complète par le couple

pour ne
pas changer la taille de l'échantillon)
Exercise 1.3.9
Reprendre les calculs précédents pour la série
Exercise 1.3.10
Tester l'hypothèse

selon laquelle la première série correspond
bien à des lancers indépendants d'une pièce équilibrée en considérant
les

valeurs de la variable

définie par

si

et par

sinon. . Même question pour l'autre
série.
Exercise 1.3.11
Voici les résultats de

lancers d'un dé :
Déterminer les valeurs de

et de

. Les utiliser pour tester
l'hypothèse

selon laquelle le dé serait équilibré et les lancers
indépendants entre eux.
Calculer le coefficient d'auto-corrélation de cette suite
On considère la variable

. Calculer la moyenne

des valeurs obtenues. Quelles sont l'espérance et la variance
de la variable

(sur l'ensemble des suites de 20 lancers et sous
l'hypothèse

) ? Conclure.
Exercise 1.3.12
Un lot de

pièces de tissus comporte

pièces non conformes.
Un autre lot de

pièces comporte

pièces non conformes.
Tester l'hypothèse

selon laquelle les deux productions ne seraient
pas significativement différentes et la conformité d'une pièce indépendante
de la conformité des autres.
Definition 1.3.13
On appelle erreur de première espèce le fait de rejeter l'hypothèse

alors que celle-ci était vraie. On note

la probabilité
de rejet sachant que

est vraie.
Remark 1.3.14
Par définition, le "risque de première espèce"

est calculable.
Definition 1.3.15
On appelle erreur de deuxième espèce le fait d'accepter rejeter l'hypothèse

alors que celle-ci était fausse.
Remark 1.3.16
Lorsque

est simplement "n'importe quoi
sauf

", le risque de deuxième espèce

ne
peut même pas être évalué. Seule une modélisation probabiliste de
l'hypothèse alternative, qui serait alors décrite par une distribution
certaine et précise, pourrait permettre une telle évaluation.
Previous: Contents
Up: Aide à la décision
Next: 2. Loi et test
  Contents
douillet@ensait.fr
2007-12-26