Comme pour le test du c2 d’ajustement, on considère un caractère (quantitatif groupé en classe ou qualitatif) présentant plusieurs modalités (p modalités) mais définis sur plusieurs échantillons indépendants (q échantillons). L’hypothèse H0 testée est « l’égalité des q distributions observées du caractère étudié «. Ce test s’apparente aux tests d’homogénéité.
La statistique du Khi deux c2 va permettre de mesurer l’écart qui existe entre les q distributions des effectifs observés pour la variable qualitative X sous l’hypothèse d’égalité des distributions dans les q populations comparées. On teste si cet écart est suffisamment faible pour être imputable aux fluctuations d’échantillonnage.
· Les données sont structurées sous forme d’un tableau des effectifs observés ou
|
Caractère A |
||||||||
modalité 1 |
|
|
modalité i |
|
|
modalité p |
Total |
|
|
Echantillon 1
Echantillon j
Echantillon q Total |
n11 |
|
|
ni1 |
|
|
np1 |
n.1 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
n1j |
|
|
nij |
|
|
npj |
n.j |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
n1q |
|
|
niq |
|
|
npq |
n.q |
|
|
n1. |
|
|
ni. |
|
|
np. |
n..= N |
|
La nomenclature commune aux tables de contingence est basée sur deux indices i et j:
l’effectif nij est celui de la colonne i et de la ligne j avec 1 £ i £ p et 1 £ j £ q
l’effectif ni. est la somme des effectifs de la colonne i
l’effectif n.j est la somme des effectifs de la ligne j
l’effectif n.. est l’effectif total de la table de contingence
· Le tableau des effectifs attendus sous l’hypothèse H0 : les q échantillons indépendants proviennent de q populations où la distribution en fréquence du caractère étudié est identique :
|
Caractère A |
|||||||
modalité 1 |
|
|
modalité i |
|
|
modalité p |
Total |
|
Echantillon 1
Echantillon j
Echantillon q
Total |
|
|
|
|
|
|
|
n.1 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
n.j |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
n.q |
|
n1. |
|
|
ni. |
|
|
np. |
n..= N |
Sous H0, l’effectif attendu tij correspondant à la modalité i du caractère A (Ai) pour l’échantillon j peut être obtenu de la façon suivante :
P(Ai Ç échantillon j) = P(Ai) x P(échantillon j) (deux évènements indépendants)
d’où Pij = = avec tij effectif attendu
d’où tij = N * Pij ainsi tij =
Tous les effectifs attendus sont obtenus par le rapport du produit des distributions marginales sur l’effectif total de la table de contingence.
tij =
Ainsi, le nombre de degrés de liberté correspondant au nombre d’effectifs estimés indépendants est (p - 1)(q - 1). Les effectifs associés à la colonne p peuvent être obtenus par différence avec la distribution marginale des lignes (p-1) et inversement pour les effectifs associés à la ligne q (q-1) (cases indépendantes grisées dans la table de contingence)
L’hypothèse testée est la suivante :
H0 : la distribution de fréquence du caractère étudié est identique pour
les différentes populations comparées.
H1 : la distribution de fréquence du caractère étudié diffère entre les
différentes populations comparées.
p : nombre de colonnes, q : nombre de lignes
avec nij l’effectif observé et tij l’effectif théorique attendu sous H0
c2obs. est comparée avec la valeur seuil, c2seuil lue sur
la table du c2 pour (p-1)(q-1)ddl (degrés de liberté) et pour un risque d’erreur a fixé.
· si > l’hypothèse H0 est rejetée au risque d’erreur a : les différents échantillons sont extraits de populations ayant des distributions différentes du caractère étudié.
· si £ l’hypothèse H0 est acceptée: les différents échantillons sont extraits de populations ayant la même distribution du caractère étudié.
Remarque : | La statistique du Khi-deux c2 ne peut être calculée que si les effectifs théoriques tij sont supérieurs à 5. |
Dans ce cas, il faut regrouper à la fois toute la ligne et toute la colonne correspond à la case possédant une valeur tij inférieur à 5. |
Exemple :
Les groupes sanguins A,B,AB et O ont été déterminés dans trois échantillons (E1 : France, E2 : Roumanie, E3 : Proche-Orient) d’hommes adultes. La répartition des groupes sanguins dépend-elle d’un facteur géographique ? Réponse.
|
A |
B |
AB |
O |
E1 |
54 |
14 |
6 |
51 |
E2 |
45 |
14 |
8 |
31 |
E3 |
33 |
34 |
12 |
33 |
Le test du c2 de comparaison de deux fréquences est un cas particulier du test de comparaison de plusieurs distributions. Dans ce cas le caractère étudié présente deux modalités (A = succès,
= échec) et est étudié sur deux échantillons indépendants extraits de deux populations. On fait l’hypothèse que les deux échantillons proviennent de 2 populations dont les probabilités de succès sont identiques : H0 : p1 = p2 .
· Table de contingence des effectifs observés (voir nomenclature A et B)
Table A Table B
|
Succès Echecs |
Effectifs |
|
Succès Echecs |
Total |
||
Echantillon 1 |
k1 |
n1- k1 |
n1 |
|
n11 |
n21 |
n.1 |
Echantillon 2 |
k2 |
n2- k2 |
n2 |
ou |
n12 |
n22 |
n.2 |
Total |
k1+k2 |
(n1+n2)-(k1+k2) |
n1+n2 |
|
n1. |
n2. |
n..= N |
· Table de contingence des effectifs attendus sous H0 : p1 = p2
|
Succès Echecs |
Total |
|
Echantillon 1 |
|
|
n.1 |
Echantillon 2 |
|
|
n.2 |
Total |
n1. |
n2. |
n..= N |
L’hypothèse testée est la suivante :
H0 : p1 = p2 contre H1 : p1 ¹ p2
suit une loi du Khi-deux c2
avec nij l’effectif observé et tij l’effectif théorique attendu sous H0
c2obs. est comparée avec la valeur seuil, c2seuil lue sur la table du c2
pour 1 ddl (degrés de liberté) et pour un risque d’erreur a fixé.
· si > l’hypothèse H0 est rejetée au risque d’erreur a : les deux échantillons sont extraits de deux populations ayant des probabilités de succès respectivement p1 et p2.
· si £ l’hypothèse H0 est acceptée: les deux échantillons sont extraits de deux populations ayant même probabilité de succès p.
Remarque : |
· La statistique du Khi-deux c2 ne peut être calculée que si les effectifs théoriques tij sont supérieurs à 5. Dans ce cas, il faut regrouper à la fois toute la ligne et toute la colonne correspond à la case possédant une valeur tij inférieur à 5. |
· La statistique du Khi-deux c2 d’une table de contingence 2 x 2 avec 1 ddl correspond au carré d’une variable normale centrée réduite e2 (démonstration). |
Exemple :
Reprendre l’exemple de l’impact des travaux dirigés dans la réussite à l’examen de statistique avec le test du Khi-deux c2. Réponse.