Les formules du paragraphe précédent ne prennent pas en compte la
façon dont les paramètres de dispersion de l'échantillon
sont effectivement calculées. Or, il est bien connu que
et
peuvent être calculés "au vol", c'est à dire au
fur et à mesure des instanciations, sans qu'il soit nécessaire de
stocker l'ensemble des composantes de cette suite. Il suffit de cumuler
les valeurs sucessives de
et
et d'utiliser la
formule élémentaire
avec
.
Ceci étant dit, il convient de se rappeler que les calculs sur ordinateurs sont le plus souvent exécutés en précision limitée, la soustraction de quantités approximativement égales devenant alors une opération à proscrire.
Il est donc souhaitable de commencer par obtenir un ordre de grandeur
pour la moyenne, soit
, et de procéder ensuite
aux cumuls des
et des
: les valeurs obtenues pour
et
sont de meilleurs estimateurs numériques de
et de
que les valeurs obtenues par le
calcul direct, à partir de
et de
.
Quant à l'estimation directe de
, elle nécessiterait
le calcul de
et de
, puis l'utilisation
d'une formule dont le principe est :
On voit aisément que ce mode de calcul va, du fait de la précision limitée des ordinateurs, engendrer une forte incertitude sur les résultats obtenus, et peut-être même les fausser totalement. Une autre méthode, moins coûteuse en temps de calcul, et dont la fiabilité est plus aisément contrôlable est la suivante.
Répartissons les
éléments de l'échantillon en
lots de
instanciations (consécutives) et calculons, pour chacun des
lots, les estimateurs
et
(l'indice
rappelle
la taille du lot, tandis que
est le numéro du lot). Nous avons
alors les résultats suivants.
La moyenne
des
est clairement
égal à
, et est donc un estimateur non biaisé de
,
et (sous l'hypothèse iid) sa variance est
.
Les quantités
et
constituent chacune (sous l'hypothèse iid) un estimateur non biaisé
de
, avec une variance
.
Enfin
est (sous l'hypothèse iid)
un estimateur non biaisé de
, et donc
est un estimateur de
.
A titre d'illustration de tout cela, la figure 1.5
donne les histogrammes des moyennes et des variances de
lots
de
valeurs obtenus lors d'une simulation de
instanciations
d'une variable uniforme.
En arrière-plan, la courbe limite, obtenue par passage à la loi normale
(avec
et
=
dans le premier cas, et
et
=
dans le second).
Les calculs précédents ont été entrepris sous l'hypothèse iid et il est donc utile de réexaminer leur validité sous des hypothèses plus générales. En tout premier lieu, il convient de remarquer que les formules portant sur les moyennes et les diverses variances d'échantillon, c'est à dire :
En second lieu, la formule
est valable dès que la covariance à long terme des différentes instanciations
de la variable est négligeable. On peut alors considérer que deux
lots successifs sont statistiquement indépendants (il faudrait en
fait ne considérer qu'un lot sur deux, mais le biais introduit est
le plus souvent négligeable).
En troisième lieu, la formule
dépend directement de l'hypothèse d'indépendance et est clairement
prise en défaut par un générateur bégayant, c'est à dire tel que
.