Appelons échantillon de taille
une suite quelconque de
nombres réels
. Le problème
général de la qualité d'un générateur de nombres pseudo-aléatoires
peut se formuler ainsi : "existe-t-il une méthode plus efficace
que le tirage à pile ou face pour déterminer si un échantillon donné
a été obtenu par
itérations du générateur à tester ou par
instanciations effectivement indépendantes d'une variable aléatoire
effectivement uniforme" ?
Une méthode simple à mettre en oeuvre consiste à considérer la "moyenne
d'échantillon", définie par
,
ainsi que la "variance d'échantillon", définie par
. La question
est alors de comparer
avec
, ainsi que
avec
pour voir si les inévitables différences entre
les valeurs théoriques et expérimentales sont ou non significatives.
Pour répondre à cette question, le choix de la valeur de
n'est
indifférent. Pour des raisons de statistique, il faut exclure les
trop petites valeurs de
(tout nombre de
est une bonne instanciation d'une variable aléatoire continue
sur cet intervalle). Mais il faut aussi exclure les trop grandes valeurs
de
. En effet, un générateur pseudo aléatoire, étant déterministe
sur un ensemble fini est périodique. Pour des générateurs explorant
toutes les valeurs de
avec
,
un échantillon de taille
vérifie
et
, relations qui sont "trop
belles pour être vraies". Un compromis raisonnable est
.
Ainsi, les
premières valeurs fournies par le générateur
lgm() à partir de
conduisent à
et
, ainsi qu'à l'histogramme de la figure
1.4.
Le fait de ne pas trouver exactement les valeurs théoriques
et
est
tout à fait naturel, mais il reste à examiner la vraisemblance des
écarts constatés, c'est à dire à qualifier l'écart entre les écarts
effectivement issus du générateur pseudo-aléatoire et les écarts qui
seraient issus d'un générateur effectivement aléatoire.
Dans ce paragraphe (1.3.2), nous considérons un échantillon
issu d'un générateur effectivement aléatoire : les
sont donc
des variables aléatoires indépendantes et identiquement distribuées.
Il est bien connu qu'en pareil cas on a :
,
c'est à dire que
est un estimateur non biaisé de
,
et que
.
Pour ce qui est de l'espérance de
en tant qu'estimateur
de
, les calculs se simplifient grandement lorsque l'on
utilise la variable centrée c'est à dire définie par
.
Convenons en outre de désigner par
la somme étendue
aux
couples
tels que
.
On obtient alors :
![]() |
|||
![]() |
|||
![]() |
Pour ce qui est de
, nous avons :
![]() |
|||
![]() |
|||
![]() |
En résumé, nous avons les formules suivantes (variances des estimateurs, hypothèse iid) :
Pour la loi uniforme, nous avons
,
et
. On en tire
,
,
et
.
Les écarts expérimentaux du paragraphe précédent doivent donc être
qualifiés selon les valeurs de leur quotient par les écarts-types
correspondants. Pour la moyenne, on a
et pour la variance
: ces écarts réduits sont tout à fait acceptables, c'est à dire ne
constituent pas un critère de différentiation entre le générateur
utilisé et un processus effectivement aléatoire uniforme iid.