Chapitre 8 : Test du c2

4         Tests du c2d’égalité de distributions

 

Comme pour le test du c2 d’ajustement, on considère un caractère (quantitatif groupé en classe ou qualitatif) présentant plusieurs modalités (p modalités) mais définis sur plusieurs échantillons indépendants (q échantillons). L’hypothèse H0 testée est « l’égalité des q distributions observées du caractère étudié «. Ce test s’apparente aux tests d’homogénéité.

 

4.1         Principe du test

 

La statistique du Khi deux c2 va permettre de mesurer l’écart qui existe entre les q distributions des effectifs observés pour la variable qualitative X sous l’hypothèse d’égalité des distributions dans les q populations comparées. On teste si cet écart est suffisamment faible pour être imputable aux fluctuations d’échantillonnage.

 

·  Les données sont structurées sous forme d’un tableau des effectifs observés ou

 table de contingence.          

 

 

 

Caractère A

modalité 1

 

 

modalité i

 

 

modalité p

Total

 

Echantillon 1

 

 

Echantillon  j

 

 

Echantillon  q

     Total

n11

 

 

ni1

 

 

np1

n.1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

n1j

 

 

nij

 

 

npj

n.j

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

n1q

 

 

niq

 

 

npq

n.q

 

n1.

 

 

ni.

 

 

np.

n..= N

 

                       

La nomenclature commune aux tables de contingence est basée sur deux indices i et j:   

 l’effectif nij est celui de la colonne i et de la ligne j     avec    1 £ i £ p et 1 £ j £ q

                  l’effectif ni. est la somme des effectifs de la colonne i 

                 l’effectif n.j est la somme des effectifs de la ligne j

                  l’effectif n.. est l’effectif total de la table de contingence

                                  

·  Le tableau des effectifs attendus sous l’hypothèse H0 : les q échantillons indépendants proviennent de q populations où la distribution en fréquence du caractère étudié est identique :

               

 

                                                     Caractère A

modalité 1

 

 

modalité i

 

 

modalité p

Total

 

Echantillon 1

 

 

 

 

Echantillon  j

 

 

 

Echantillon  q

   

 Total

 

 

 

 

n.1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

n.j

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

n.q

n1.

 

 

ni.

 

 

np.

n..= N

             

Sous H0, l’effectif attendu tij correspondant à la modalité i du caractère A (Ai) pour l’échantillon j  peut être obtenu de la façon suivante :

               P(Ai Ç échantillon j) =  P(Ai) x P(échantillon j)  (deux évènements indépendants)

              d’où     Pij =   =    avec tij effectif attendu

               d’où     tij = N * Pij    ainsi      tij =

Tous les effectifs attendus sont obtenus par le rapport du produit des distributions marginales sur l’effectif total de la table de contingence.

                                                                  tij =

 

Ainsi, le nombre de degrés de liberté correspondant au nombre d’effectifs estimés indépendants est (p - 1)(q - 1).  Les effectifs associés à la colonne p peuvent être obtenus par différence avec la distribution marginale des lignes (p-1)  et inversement pour les effectifs associés à la ligne q (q-1) (cases indépendantes grisées dans  la table de contingence)

 

4.2       Application et décision

        L’hypothèse  testée est la suivante :  

                     H0 : la distribution de fréquence du caractère étudié est identique pour

                            les différentes populations comparées.        

                     H1 : la distribution de fréquence du caractère étudié diffère entre les

                            différentes populations comparées.        

                                     p : nombre de colonnes, q : nombre de lignes

                                                                                        

                     avec nij l’effectif observé et tij l’effectif théorique attendu sous H0

                      c2obs. est comparée avec la valeur seuil, c2seuil lue sur

   la table du c2 pour (p-1)(q-1)ddl (degrés de liberté) et pour un risque d’erreur a fixé.            

·   si   >  l’hypothèse H0 est rejetée au risque d’erreur a : les différents échantillons sont extraits de populations ayant des distributions différentes du caractère étudié.

·  si   £  l’hypothèse H0 est acceptée: les différents échantillons sont extraits de populations ayant la même distribution du caractère étudié.

 

Remarque : La statistique du Khi-deux c2 ne peut être calculée que si les effectifs théoriques tij sont supérieurs à 5.

Dans ce cas, il faut regrouper à la fois toute la ligne et toute la colonne correspond à la case possédant une valeur tij  inférieur à 5.

 

Exemple :

Les groupes sanguins A,B,AB et O ont été déterminés dans trois échantillons (E1 : France, E2 : Roumanie, E3 : Proche-Orient) d’hommes adultes. La répartition des groupes sanguins dépend-elle d’un facteur géographique ? Réponse.

 

A

B

AB

O

E1

54

14

6

51

E2

45

14

8

31

E3

33

34

12

33

 

 

4.3       Cas particulier de la comparaison de deux fréquences

 

Le test du c2 de comparaison de deux fréquences est un cas particulier du test de comparaison de plusieurs distributions. Dans ce cas le caractère étudié présente deux modalités (A = succès,

 = échec) et est étudié sur deux échantillons indépendants extraits de deux populations. On fait l’hypothèse que les deux échantillons proviennent de 2 populations dont les probabilités de succès sont identiques : H0 : p1 = p2 .

 

· Table de contingence des effectifs observés (voir nomenclature A  et B)        

 

      

                                             Table A                                                       Table B

 

Succès           Echecs

Effectifs

 

Succès    Echecs

 Total

Echantillon 1

k1

n1- k1

n1

 

n11

n21

   n.1

Echantillon 2

k2

n2- k2

n2

ou

n12

n22

  n.2

Total

k1+k2

(n1+n2)-(k1+k2)

n1+n2

 

n1.

n2.

n..= N

 

· Table de contingence des effectifs attendus sous H0 : p1 = p2  

           

 

    Succès                Echecs

 Total

Echantillon 1

    n.1

Echantillon 2

    n.2

Total

n1.

n2.

n..= N

 

  

     L’hypothèse  testée est la suivante :  

                   H: p1 = p2      contre    H: p1 ¹ p2    

                  suit une loi du Khi-deux  c2

                  avec nij l’effectif observé et tij l’effectif théorique attendu sous H0

 

                  c2obs. est comparée avec la valeur seuil, c2seuil lue sur la table du c2

                pour  1  ddl (degrés de liberté) et pour un risque d’erreur a fixé.

 

            ·   si   >  l’hypothèse H0 est rejetée au risque d’erreur a : les deux échantillons sont extraits de deux populations ayant des probabilités de succès  respectivement p1 et p2.

·  si   £  l’hypothèse H0 est acceptée: les deux échantillons sont extraits de deux populations ayant même probabilité de succès p.

Remarque :

· La statistique du Khi-deux c2 ne peut être calculée que si les effectifs théoriques tij sont supérieurs à 5. Dans ce cas, il faut regrouper à la fois toute la ligne et toute la colonne correspond à la case possédant une valeur tij  inférieur à 5.

· La statistique du Khi-deux c2 d’une table de contingence 2 x 2 avec 1 ddl correspond au carré d’une variable normale centrée réduite e2  (démonstration).

 

Exemple :

Reprendre l’exemple de l’impact des travaux dirigés dans la réussite à l’examen de statistique avec le test du Khi-deux c2. Réponse.