Chapitre 8 : Test du c²

3 Test du c²d’ajustement

Le test du c² d’ajustement correspond à la comparaison d’une distribution de fréquences observées et d’une distribution de fréquences théoriques. Ce test est fréquemment utilisé en génétique, où l’on confronte les résultats expérimentaux de croisements pour un caractère donné à ceux résultant d’une transmission mendélienne de ce caractère. Le champ d’application de ces méthodes ne se limite pas à la génétique.

En effet l’utilisation des tests d’hypothèse tels que nous les avons définis, implique la réalisation de certaines hypothèses comme par exemple la normalité de la variable étudiée. Il est donc nécessaire de comparer la distribution observée des valeurs à celle attendue dans le cas d’une distribution normale de celles-ci (ajustement à une loi normale).

3.1 Principe du test

Le principe du test du c²d'ajustement est d’estimer à partir d’une loi de probabilité connue ou inférée, les effectifs théoriques pour les différentes modalités du caractère étudié (caractère qualitatif ou quantitatif regroupé en classe) et les comparer aux effectifs observés dans un échantillon. Deux cas peuvent se présenter :

· soit la loi de probabilité est spécifiée a priori car elle résulte par exemple d’un modèle déterministe tel que la distribution mendélienne des caractères, l’évolution de la taille d’une population, etc.

· soit la loi de probabilité théorique n’est pas connue a priori et elle est déduite des caractéristiques statistiques mesurées sur l’échantillon (distribution des fréquences, moyenne et variance)(statistiques descriptives).

3.2 Application et décision

L’établissement des distributions théoriques de probabilité se réfèrent aux lois de probabilité. A chaque modalité ou valeur de la variable aléatoire X, les probabilités associées à la loi de probabilité sont calculées ainsi que les effectifs théoriques attendues sous cette loi :

	Modalité du caractère A A₁A₂... A_i……..A_k
Effectif observé n_i	n₁n₂…..n_i……..n_k
p_i	p₁p₂.…..p_i……...p_k
Effectif théorique t_i= n * p_i	t₁t₂..…t_i………..t_k

Remarque :	Si le caractère A ne présente que deux modalités A (succès) et (échec),
	le test du c²d'ajustement revient à la comparaison d’une fréquence observée et d’une fréquence théorique (test de conformité).

La statistique du Khi deux c² consiste à mesurer l’écart qui existe entre la distribution théorique et la distribution observée et à tester si cet écart est suffisamment faible pour être imputable aux fluctuations d’échantillonnage.

L’hypothèse testée est la suivante :

H₀ : la distribution observée est conforme à la distribution théorique.

H₁ : la distribution observée ne s’ajuste pas à la distribution théorique.

k modalités du caractère étudié

avec n_i l’effectif observé et t_i l’effectif théorique attendu sous H₀

c²_obs. est comparée avec la valeur seuil, c²_seuil lue sur

la table du c² pour k-c ddl (degrés de liberté) et pour un risque d’erreur a fixé.

Remarque :	Il est impératif que les conditions d’application soient vérifiées :
	taille de l’échantillon n ³ 50 et les np_i ³ 5.

Exemple :

Soit le locus biallélique codant pour la glucose 6 phosphate déhydrogénase (G6PDH), enzyme participant au métabolisme énergétique (dégradation des sucres), l’analyse électrophorétique des génotypes chez l’anophèle, vecteur de la malaria, donne la répartition suivante :

FF = 44, FS = 121, SS = 105.

La répartition des génotypes est-elle conforme au modèle de Hardy-Weinberg ? Réponse.

3.3 Ajustements à différentes lois de probabilité connues

3.3.1 Ajustement à une loi binomiale

Application

Est-ce que la distribution du nombre de filles observées dans 320 fratries de 5 enfants suit une loi binomiale de paramètre B(5, 0,5) ? Réponse.

X : Nbre de filles (i)	0 1 2 3 4 5
Nbre de fratries observées (n_i)	18 56 110 88 40 8

La distribution théorique suit une loi binomiale B(n, p)

avec n :nbre d’épreuves

p : probabilité du succès

k : nbre de valeurs prises X

Le nombre de degrés de liberté est :

nombre de termes du c² ( £ k) moins le nombre de contraintes c

· c = 1 (n) si p est connue

· c = 2 (n et ) si p est inconnue avec

Exemple :

Refaire le test du c² d’ajustement en utilisant pour p, la fréquence observée du nombre de filles dans les fratries de 5 enfants, faite à partir des données de l’échantillon. Réponse .

3.3.2 Ajustement à une loi de poisson

Application

Est-ce que le nombre de cas graves traités chaque jour par un vétérinaire sur une période de 200 jours suit une loi de poisson ? Réponse.

X : Nbre de cas graves (i)	0 1 2 3 4 5 et plus
Nbre de jours (n_i)	50 74 50 21 4 1

Remarque :	La distribution de poisson n’étant pas bornée lorsque X ® + ¥ ,
	il est nécessaire de borner la distribution en estimant la probabilité de la dernière classe par différence avec la somme des probabilités qui est de 1.

Exemple : En reprenant les données relatives à la cécidomyie du hêtre , peut-on affirmer que la répartition du nombre de galles par feuille suit une loi de poisson ? Réponse

3.3.3 Ajustement à une loi normale

Application

Le caractère « taille » mesuré sur 1000 individus peut-il être considéré comme suivant une loi normale ? Réponse.

X : taille en cm (x_i)	< 155 [ 155-165 ] [ 165-175 ] [ 175-185 ] >185
Nbre d’individus (n_i)	1 70 500 379 50

La distribution théorique suit une loi normale N(m,s)

P(a £ X £ b) = P(z_a£ Z £ z_b) = p(b) - p(a) (voir probabilités)

avec la variable centrée réduite et k : nombre de classes de la variable X

Le nombre de degrés de liberté est :

nombre de terme du c² (£ k) moins le nombre de contraintes c

· c = 1 (n) si m et s connues

· c = 2 (n , ) si m inconnue avec = (même chose si s inconnue )

· c = 3 (n , , ) si m et s inconnues avec = et

Remarque :	La loi normale n’étant pas bornée aux deux extrémités de la distribution,
	lorsque X ® ± ¥ , il est nécessaire de borner la distribution en estimant la probabilité des deux classes extrèmes par différence avec 0 et 1.

Chapitre 8 : Test du c2

3 Test du c2 d’ajustement