Dans ce paragraphe, sont traités des éléments de calcul des probabilités dont l’application statistique est nombreuse. La partie fondamentale est le théorème central limite. Les éléments présentés permettent de préciser ce que signifie l’ajustement d’une loi de probabilité par une autre loi (notion de convergence) et ainsi de justifier l’approximation d’une distribution observée par une loi théorique (chapitre 7). De plus ces éléments permettent de donner des limites d’erreurs possibles dans l’estimation d’un élément d’une population (chapitre 6).
Soit une suite de n variables aléatoires X1, X2, X3, …, Xi,…, Xn. Cette suite converge en loi vers la variable aléatoire X de fonction de répartition FX quand n augmente indéfiniment, si la suite des fonctions de répartition tend vers la fonction de répartition FX pour tout x pour lequel FX est continue.
Exemple :
Nous avons montré que la loi de probabilité d’une variable binomiale tend vers une loi de Poisson lorsque n tend vers l’infini. Il en serait de même des fonctions de répartition
correspondantes. On peut donc dire que la loi binomiale B(n,p) converge en loi vers une loi de Poisson de paramètres np. (voir Rapport entre loi de probabilité).
Appelé également théorème de la limite centrale, il fut établi par Liapounoff et Lindeberg.
On se place dans une situation d’épreuves répétées, caractérisées par une suite
X1, X2, X3, …, Xi,…, Xn de n variables aléatoires indépendantes et de même loi (espérance E(Xi) = m et variance V (Xi) = s2 ). On définit ainsi deux nouvelles variables aléatoires :
la somme Sn = X1 + X2 +…+ Xi + ...+ Xn
la moyenne
telles que :
E(Sn ) = nm V(Sn ) = ns2 |
E(Mn ) = m |
Voici pourquoi :
Pour les deux variables aléatoires, les valeurs de l’espérance et de la variance sont liées aux propriétés de linéarité et d’indépendance.
Ces formules sont à la base des principaux estimateurs en statistique.
Soit la variable aléatoire Sn résultant de la somme de n variables aléatoires
indépendantes et de même loi, on construit la variable centrée réduite telle que :
Alors pour tout t Î R, la fonction de répartition Fn(t) = P(Zn < t) est telle que :
quand n ® ∞ c’est à dire N(0,1).
Remarque : | On peut calculer Zn aussi bien à partir de Sn que de Mn car |
|
Une variable aléatoire résultant de la somme de plusieurs v.a. ayant même loi et même paramètres est distribuée suivant une loi normale réduite lorsque le nombre d’épreuves n tend vers l’infini.
Le théorème central limite s’applique quelque soit la loi de probabilité suivie par les variables aléatoires discrètes ou continues, pourvu que les épreuves soient indépendantes, reproductibles et en très grand nombre.
Grâce au théorème de la limite centrale, on peut voir que des phénomènes dont la variation est engendrée par un nombre important de causes indépendantes sont généralement susceptibles d’être représentés par une loi normale.
A l’aide de la convergence en loi et du théorème central limite, il est possible de faire l’approximation de certaines lois de probabilités par d’autres (voir Rapport entre loi de probabilité).
Théorème :
Soit X une variable aléatoire suivant une loi binomiale de paramètres (n,p), alors quand n ® ∞ c’est à dire N(0,1)
avec m = E(X) = np et s2 = V(X) = npq
La convergence est d’autant plus rapide que p est voisin de 0,5, distribution symétrique pour la loi binomiale.
Remarque : | On considère que l’approximation est valable si on a à la fois np ≥ 5 et nq ≥ 5 (voir Rapport entre loi de probabilité). |
Théorème :
Soit X une variable aléatoire suivant une loi de Poisson de paramètre alors quand n ® ∞ c’est à dire N(0,1)
avec E(X) = l et V(X) = l
Remarque : | On considère qu’on peut faire ces approximations si l ³ 20 (voir Rapport entre loi de probabilité). |
L’inégalité de Markov et l’inégalité de Bienaymé-Tchébycheff s’appliquent aussi bien aux variables aléatoires discrètes ou absolument continues. Elles permettent pour une variable aléatoire X d’espérance E(X) = m et de variance σ2 d’évaluer la probabilité pour que X diffère de la moyenne d’une quantité inférieure à une valeur h.
Le problème est de donner une consistance quantitative à la remarque déjà faite que, plus l’écart-type d’une variable aléatoire est faible, plus sa distribution de probabilité est concentrée autour de son espérance mathématique (voir degré d’aplatissement de la loi normale). Afin de démontrer cette inégalité, nous allons présenter tout d’abord l’inégalité de Markov.
Soit X une variable aléatoire admettant une espérance E(X) et une variance V(X), étant donné, un réel h>0 l’inégalité de Markov donne :
Voici pourquoi :
la sommation étant étendue à toutes les valeurs de i tels que |xi| > h
dans ce cas : soit Û
ainsi d’où et
Si l’on applique l’inégalité de Markov à la variable aléatoire , on a
or et en passant à l’évènement contraire, on a :
En posant avec t > 0, on obtient l’inégalité suivante
sachant que s > 0
qui est équivalente à
"t > 0 inégalité de Bienaymé-Tchébycheff
Remarque : | Ces inégalités n’ont d’intérêt que si t est assez grand. |