Le test du c2 d’ajustement correspond à la comparaison d’une distribution de fréquences observées et d’une distribution de fréquences théoriques. Ce test est fréquemment utilisé en génétique, où l’on confronte les résultats expérimentaux de croisements pour un caractère donné à ceux résultant d’une transmission mendélienne de ce caractère. Le champ d’application de ces méthodes ne se limite pas à la génétique.
En effet l’utilisation des tests d’hypothèse tels que nous les avons définis, implique la réalisation de certaines hypothèses comme par exemple la normalité de la variable étudiée. Il est donc nécessaire de comparer la distribution observée des valeurs à celle attendue dans le cas d’une distribution normale de celles-ci (ajustement à une loi normale).
Le principe du test du c2 d'ajustement est d’estimer à partir d’une loi de probabilité connue ou inférée, les effectifs théoriques pour les différentes modalités du caractère étudié (caractère qualitatif ou quantitatif regroupé en classe) et les comparer aux effectifs observés dans un échantillon. Deux cas peuvent se présenter :
· soit la loi de probabilité est spécifiée a priori car elle résulte par exemple d’un modèle déterministe tel que la distribution mendélienne des caractères, l’évolution de la taille d’une population, etc.
· soit la loi de probabilité théorique n’est pas connue a priori et elle est déduite des caractéristiques statistiques mesurées sur l’échantillon (distribution des fréquences, moyenne et variance)(statistiques descriptives).
L’établissement des distributions théoriques de probabilité se réfèrent aux lois de probabilité. A chaque modalité ou valeur de la variable aléatoire X, les probabilités associées à la loi de probabilité sont calculées ainsi que les effectifs théoriques attendues sous cette loi :
|
Modalité du caractère A A1 A 2 ... A i …….. A k |
|
Effectif observé ni |
n1 n2 …..ni …….. nk |
|
pi |
p1 p2 .…..pi ……... pk |
|
Effectif théorique ti = n * pi |
t1 t2 ..…ti ……….. tk |
|
Remarque : | Si le caractère A ne présente que deux modalités A (succès) et (échec), |
le test du c2 d'ajustement revient à la comparaison d’une fréquence observée et d’une fréquence théorique (test de conformité).
|
La statistique du Khi deux c2 consiste à mesurer l’écart qui existe entre la distribution théorique et la distribution observée et à tester si cet écart est suffisamment faible pour être imputable aux fluctuations d’échantillonnage.
L’hypothèse testée est la suivante :
H0 : la distribution observée est conforme à la distribution théorique.
H1 : la distribution observée ne s’ajuste pas à la distribution théorique.
k modalités du caractère étudié
avec ni l’effectif observé et ti l’effectif théorique attendu sous H0
c2obs. est comparée avec la valeur seuil, c2seuil lue sur
la table du c2 pour k-c ddl (degrés de liberté) et pour un risque d’erreur a fixé.
Remarque : | Il est impératif que les conditions d’application soient vérifiées : |
taille de l’échantillon n ³ 50 et les npi ³ 5. |
Exemple :
Soit le locus biallélique codant pour la glucose 6 phosphate déhydrogénase (G6PDH), enzyme participant au métabolisme énergétique (dégradation des sucres), l’analyse électrophorétique des génotypes chez l’anophèle, vecteur de la malaria, donne la répartition suivante :
FF = 44, FS = 121, SS = 105.
La répartition des génotypes est-elle conforme au modèle de Hardy-Weinberg ? Réponse.
Application
Est-ce que la distribution du nombre de filles observées dans 320 fratries de 5 enfants suit une loi binomiale de paramètre B(5, 0,5) ? Réponse.
X : Nbre de filles (i) |
0 1 2 3 4 5 |
Nbre de fratries observées (ni) |
18 56 110 88 40 8 |
La distribution théorique suit une loi binomiale B(n, p)
avec n :nbre d’épreuves
p : probabilité du succès
k : nbre de valeurs prises X
Le nombre de degrés de liberté est :
nombre de termes du c2 ( £ k) moins le nombre de contraintes c
· c = 1 (n) si p est connue
· c = 2 (n et ) si p est inconnue avec
Exemple :
Refaire le test du c2 d’ajustement en utilisant pour p, la fréquence observée du nombre de filles dans les fratries de 5 enfants, faite à partir des données de l’échantillon. Réponse .
Est-ce que le nombre de cas graves traités chaque jour par un vétérinaire sur une période de 200 jours suit une loi de poisson ? Réponse.
X : Nbre de cas graves (i) |
0 1 2 3 4 5 et plus |
Nbre de jours (ni) |
50 74 50 21 4 1 |
La distribution théorique suit une loi de poisson P(l)
k : nombre de valeurs prises X
Le nombre de degrés de liberté est :
nombre de terme du c2 ( £ k) moins le nombre de contraintes c
· c = 1 (n) si l est connu
· c = 2 (n et ) si l est inconnu avec =
Remarque : | La distribution de poisson n’étant pas bornée lorsque X ® + ¥ , |
il est nécessaire de borner la distribution en estimant la probabilité de la dernière classe par différence avec la somme des probabilités qui est de 1. |
Exemple : En reprenant les données relatives à la cécidomyie du hêtre , peut-on affirmer que la répartition du nombre de galles par feuille suit une loi de poisson ? Réponse
.
Application
Le caractère « taille » mesuré sur 1000 individus peut-il être considéré comme suivant une loi normale ? Réponse.
X : taille en cm (xi) |
< 155 [ 155-165 ] [ 165-175 ] [ 175-185 ] >185 |
Nbre d’individus (ni) |
1 70 500 379 50 |
La distribution théorique suit une loi normale N(m,s)
P(a £ X £ b) = P(za £ Z £ zb) = p(b) - p(a) (voir probabilités)
avec la variable centrée réduite et k : nombre de classes de la variable X
Le nombre de degrés de liberté est :
nombre de terme du c2 (£ k) moins le nombre de contraintes c
· c = 1 (n) si m et s connues
· c = 2 (n , ) si m inconnue avec = (même chose si s inconnue )
· c = 3 (n , , ) si m et s inconnues avec = et
Remarque : | La loi normale n’étant pas bornée aux deux extrémités de la distribution, |
lorsque X ® ± ¥ , il est nécessaire de borner la distribution en estimant la probabilité des deux classes extrèmes par différence avec 0 et 1. |
Exemple : En reprenant les données relatives à la longueur de la rectrice de la gélinotte hupée, peut-on affirmer que cette mesure suit une loi normale ? Réponse.