Pour résoudre les problèmes d’estimation de paramètres inconnus, il faut tout d’abord étudier les distributions d’échantillonnage, c’est à dire la loi de probabilité suivie par l’estimateur.
Remarque : | En théorie de l’estimation, il s’agit de distinguer soigneusement trois concepts différents : |
- les paramètres de la population comme la moyenne m dont la valeur est certaine mais inconnue symbolisés par des lettres grecques. - les résultats de l’échantillonnage comme la moyenne dont la valeur est certaine mais connue symbolisés par des minuscules. - les variables aléatoires des paramètres, comme la moyenne aléatoire dont la valeur est incertaine puisque aléatoire mais dont la loi de probabilité est souvent connue et symbolisées par des majuscules. |
Il est possible d’extraire d’une population de paramètres p, m ou s2 pour une variable aléatoire X, k échantillons aléatoires simples de même effectif, n. Sur chaque échantillon de taille n, on calcule les paramètres descriptifs (f, , s2).
On obtient ainsi pour chaque paramètre estimé, une série statistique composée de k éléments à savoir les k estimations du paramètre étudié. Par exemple, on aura k valeurs de moyennes observées (graphe ci-dessus).
La distribution associée à ces k estimations constitue la distribution d’échantillonnage du paramètre. On peut alors associer une variable aléatoire à chacun des paramètres. La loi de probabilité suivie par cette variable aléatoire admet comme distribution, la distribution d’échantillonnage du paramètre auquel on pourra associer une espérance et une variance.
En pratique, les données étudiées sont relatives à un seul échantillon. C’est pourquoi, il faut rechercher les propriétés des échantillons susceptibles d’être prélevés de la population ou plus précisément les lois de probabilité de variables aléatoires associées à un échantillon aléatoire.
Ainsi les n observations x1 , x2 ,…, xi , ..., xn, faites sur un échantillon peuvent être considérées comme n variables aléatoires X1 , X2 ,…, Xi , ..., Xn. En effet, la valeur prise par le premier élément extrait de la population X1, dépend de l’échantillon obtenu lors du tirage aléatoire. Cette valeur sera différente si l’on considère un autre échantillon. Il en est de même pour les n valeurs extraites de la population.
A partir de ces n variables aléatoires, on peut définir alors une nouvelle variable qui sera fonction de ces dernières telle que :
Y = f(X1, X2,…, Xi , ..., Xn )
par exemple : Y = X1 + X2+…+ Xi +. …Xn
Ainsi la loi de probabilité de la variable aléatoire Y dépendra à la fois de la loi de probabilité de la variable aléatoire X et de la nature de la fonction f.
Soit X une variable aléatoire suivant une loi normale d’espérance m et de variance s2 et
n copies indépendantes X1,X2,…,Xi,…,Xn telle que Xi associe le ième élément de chacun des n échantillons avec E(Xi) = m et V(Xi) = s2.
On construit alors la variable aléatoire , telle que
avec pour espérance :
d’où est notée également
d’où est notée également
La loi de probabilité de la variable aléatoire , moyenne de n v.a. X de loi de probabilité
N(m , s), est une loi normale N(m , ).
Remarque : | il est aisé de voir sur le graphe ci-dessous que la variance associée à une moyenne ( ) est plus faible que la variance de la variable elle-même (s2). |
|
Soit l’étendue des valeurs observées d’une variable aléatoire X pour 4 échantillons de même taille issus d’une même population.
Les valeurs des moyennes arithmétiques sont indiquées ainsi que les limites relatives à l’étendue des valeurs de la variable observée et celle des moyennes observées. |
Exemple :
Des études statistiques montrent que le taux de glucose dans le sang est une variable normale X d’espérance m = 1 g/l et d’écart-type s = 0,1 g/l.
En prenant un échantillon de 9 individus dans la population, l’espérance et l’écart-type théorique attendu de la variable aléatoire sont alors :
= m = 1 g/l et = = = 0,03 g/l
En fonction de la nature de la variable aléatoire continue X, de la taille de l’échantillon n et de la connaissance que nous avons sur le paramètre s2, la variable centrée réduite construite avec converge vers différentes lois de probabilité (Table de convergence).
Lorsque la variance s2 est connue et n grand (n ³ 30), on se trouve dans les conditions du
théorème central limite et la loi suivie par :
® N(0,1) loi normale réduite
Ceci reste vrai lorsque n £ 30 seulement si la loi suivie par X suit une loi normale.
Lorsque la variance s2 n’est pas connue et X suit une loi normale, la loi suivie
par la variable centrée réduite est alors:
® T n-1 loi de student à n-1 degrés de liberté
Lorsque n ³ 30, la loi de student tend vers une loi normale réduite (voir convergence).
Lorsque la variance s2 n’est pas connue et X ne suit pas une loi normale, la loi suivie par
n’est pas connue. (Table de convergence).
Soit une population dans laquelle une proportion p des individus présente une certaine propriété.
Si k est le nombre d’individu présentant la propriété dans un échantillon de taille n, alors la variable aléatoire K résultant de différents échantillonnages suit une loi binomiale B(n,p) avec E(K) = np et V(K) = npq.
On construit la variable aléatoire avec
pour espérance : Opération sur les variables
et pour variance :
La loi de probabilité d’une fréquence , suit une loi normale N(p, )
vrai si np ³ 5 et nq ³ 5.