Chapitre 8 : Test du c2

3         Test du c2 d’ajustement

 

Le test du c2 d’ajustement correspond à la comparaison d’une distribution de fréquences observées et d’une distribution de fréquences théoriques. Ce test est fréquemment utilisé en génétique, où l’on confronte les résultats expérimentaux de croisements pour un caractère donné à ceux résultant d’une transmission mendélienne de ce caractère. Le champ d’application de ces méthodes ne se limite pas à la génétique.

En effet l’utilisation des tests d’hypothèse tels que nous les avons définis, implique la réalisation de certaines hypothèses comme par exemple la normalité de la variable étudiée. Il est donc nécessaire de comparer la distribution observée des valeurs à celle attendue dans le cas d’une distribution normale de celles-ci (ajustement à une loi normale).

 

3.1         Principe du test 

Le principe du test du c2 d'ajustement est d’estimer à partir d’une loi de probabilité connue ou inférée, les effectifs théoriques pour les différentes modalités du caractère étudié (caractère qualitatif ou quantitatif regroupé en classe) et les comparer aux effectifs observés dans un échantillon. Deux cas peuvent se présenter :

·  soit la loi de probabilité est spécifiée a priori car elle résulte par exemple d’un modèle déterministe tel que la distribution mendélienne des caractères, l’évolution de la taille d’une population, etc.

           ·  soit la loi de probabilité théorique n’est pas connue a priori et elle est déduite des caractéristiques statistiques mesurées sur l’échantillon (distribution des fréquences, moyenne et variance)(statistiques descriptives).

 

3.2       Application et décision 

 

L’établissement des distributions théoriques de probabilité se réfèrent aux lois de probabilité.  A chaque modalité ou valeur de la variable aléatoire X, les probabilités associées à la loi de probabilité sont calculées ainsi que les effectifs théoriques attendues sous cette loi :

 

 

 

   Modalité du caractère A

A1         A 2          ... A i   ……..    A k

 

Effectif observé

ni

n1         n2         …..ni   ……..    nk                      

   

pi

p1         p2       .…..pi   ……...    pk                        

    

   Effectif théorique

          ti = n * pi

t1           t2         ..…ti   ………..  tk                    

    

 

Remarque : Si le caractère A ne présente que deux modalités A (succès) et  (échec),

le test du c2 d'ajustement revient à la comparaison d’une fréquence observée et d’une fréquence théorique (test de conformité).

 

La statistique du Khi deux c2 consiste à mesurer l’écart qui existe entre la distribution théorique et la distribution observée et à tester si cet écart est suffisamment faible pour être imputable aux fluctuations d’échantillonnage.

 

        L’hypothèse  testée est la suivante :  

                     H0 : la distribution observée est conforme à la distribution théorique.

                      H1 : la distribution observée ne s’ajuste  pas  à la distribution théorique.

                                                  k modalités du caractère étudié

                       avec ni l’effectif observé et ti l’effectif théorique attendu sous H0         

                       c2obs. est comparée avec la valeur seuil, c2seuil lue sur

   la table du c2 pour k-c ddl (degrés de liberté) et pour un risque d’erreur a fixé.

Remarque : Il est impératif que les conditions d’application soient vérifiées :

taille de l’échantillon n ³ 50 et les npi ³ 5.

  

Exemple :           

Soit le locus biallélique codant pour la glucose 6 phosphate déhydrogénase (G6PDH), enzyme participant au métabolisme énergétique (dégradation des sucres), l’analyse électrophorétique des génotypes chez l’anophèle, vecteur de la malaria, donne la répartition suivante :

              FF = 44, FS = 121, SS = 105.

La répartition des génotypes est-elle conforme au modèle de Hardy-Weinberg ? Réponse.

 

3.3       Ajustements à différentes lois de probabilité connues

3.3.1                   Ajustement à une loi binomiale

Application

Est-ce que la distribution du nombre de filles observées dans 320 fratries de 5 enfants suit une loi binomiale de paramètre B(5, 0,5) ? Réponse.

X : Nbre de filles (i)

   0     1       2       3      4     5

Nbre de fratries observées (ni)

  18   56    110    88    40    8

 

                 La distribution théorique suit une loi binomiale B(n, p)           

                                                                                                     avec  n :nbre d’épreuves

                                                                                                              p : probabilité du succès

                                                              k : nbre de valeurs prises X

 

Le nombre de degrés de liberté est :

              nombre de termes du c2 ( £ k) moins le nombre de contraintes c

                          ·  c = 1 (n) si p est connue

                          ·  c = 2 (n et  ) si p est inconnue  avec  

Exemple :

Refaire le test du c2 d’ajustement en utilisant pour p, la fréquence observée du nombre de filles dans les fratries de 5 enfants,  faite à partir des données de l’échantillon. Réponse .

3.3.2                  Ajustement à une loi de poisson

Application

Est-ce que le nombre de cas graves traités chaque jour par un vétérinaire sur une période de 200 jours suit une loi de poisson ? Réponse.

X : Nbre de cas graves  (i)

   0     1       2       3      4     5 et plus   

Nbre de jours  (ni)

  50   74     50     21     4          1       

                        

             La distribution théorique suit une loi de poisson     P(l

                                                        k : nombre de valeurs prises X

Le nombre de degrés de liberté est :

       nombre de terme du c2 ( £ k) moins le nombre de contraintes c

                            ·  c = 1 (n) si   l  est connu

                            ·  c = 2 (n et  ) si l est inconnu avec   =

                                                                                                           

Remarque : La distribution de poisson n’étant pas bornée lorsque X ® + ¥ ,

il est nécessaire de borner la distribution en estimant la probabilité de la dernière classe par différence avec  la somme des probabilités qui est de 1.

Exemple : En reprenant les données relatives à la cécidomyie du hêtre , peut-on affirmer que la répartition du nombre de galles par feuille suit une loi de poisson ? Réponse

.

3.3.3                 Ajustement à une loi normale

Application

Le caractère « taille » mesuré sur 1000 individus peut-il être considéré comme suivant une loi normale ? Réponse.

 

 

X : taille en cm  (xi)

< 155    [ 155-165 ]   [ 165-175 ]    [ 175-185 ]     >185      

Nbre d’individus  (ni)

     1             70                500               379               50       

 

 

                 La distribution théorique suit une loi normale N(m,s

             P(a £ X £ b) = P(za £ Z £ zb) = p(b) - p(a)   (voir probabilités)

      avec la variable centrée réduite    et      k : nombre de classes de la variable  X

Le nombre de degrés de liberté est :  

        nombre de terme du c2 (£ kmoins le nombre de contraintes c

                   ·   c = 1 (n) si   m et s  connues

                   ·   c = 2 (n ,  ) si m  inconnue avec   =     (même chose si  s  inconnue )                                                                                                

                  ·  c = 3 (n , ,  ) si m  et s inconnues avec  =  et

                                                                                                            

Remarque : La loi normale n’étant pas bornée aux deux extrémités de la distribution,

lorsque X ® ± ¥ , il est nécessaire de borner la distribution en estimant la probabilité des deux classes extrèmes par différence avec 0 et 1.

 

Exemple : En reprenant les données relatives à la longueur de la rectrice de la gélinotte hupée, peut-on affirmer que cette mesure suit une loi normale ? Réponse.