Comme pour le test du c2 d’ajustement, on considère un caractère (quantitatif groupé en classe ou qualitatif) présentant plusieurs modalités (p modalités) mais définis sur plusieurs échantillons indépendants (q échantillons). L’hypothèse H0 testée est « l’égalité des q distributions observées du caractère étudié «. Ce test s’apparente aux tests d’homogénéité.
La statistique du Khi deux c2 va permettre de mesurer l’écart qui existe entre les q distributions des effectifs observés pour la variable qualitative X sous l’hypothèse d’égalité des distributions dans les q populations comparées. On teste si cet écart est suffisamment faible pour être imputable aux fluctuations d’échantillonnage.
· Les données sont structurées sous forme d’un tableau des effectifs observés ou
|
Caractère A |
||||||||
modalité 1 |
|
|
modalité i |
|
|
modalité p |
Total |
|
|
Echantillon 1
Echantillon j
Echantillon q Total |
n11 |
|
|
ni1 |
|
|
np1 |
n.1 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
n1j |
|
|
nij |
|
|
npj |
n.j |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
n1q |
|
|
niq |
|
|
npq |
n.q |
|
|
n1. |
|
|
ni. |
|
|
np. |
n..= N |
|
La nomenclature commune aux tables de contingence est basée sur deux indices i et j:
l’effectif nij est celui de la colonne i et de la ligne j avec 1 £ i £ p et 1 £ j £ q
l’effectif ni. est la somme des effectifs de la colonne i
l’effectif n.j est la somme des effectifs de la ligne j
l’effectif n.. est l’effectif total de la table de contingence
· Le tableau des effectifs attendus sous l’hypothèse H0 : les q échantillons indépendants proviennent de q populations où la distribution en fréquence du caractère étudié est identique :
|
Caractère A |
|||||||
modalité 1 |
|
|
modalité i |
|
|
modalité p |
Total |
|
Echantillon 1
Echantillon j
Echantillon q
Total |
|
|
|
|
|
|
|
n.1 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
n.j |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
n.q |
|
n1. |
|
|
ni. |
|
|
np. |
n..= N |
Sous H0, l’effectif attendu tij correspondant à la modalité i du caractère A (Ai) pour l’échantillon j peut être obtenu de la façon suivante :
P(Ai Ç échantillon j) = P(Ai) x P(échantillon j) (deux évènements indépendants)
d’où
Pij =
d’où
tij = N
* Pij ainsi
tij =
Tous les effectifs attendus sont obtenus par le rapport du produit des distributions marginales sur l’effectif total de la table de contingence.
tij =
Ainsi, le nombre de degrés de liberté correspondant au nombre d’effectifs estimés indépendants est (p - 1)(q - 1). Les effectifs associés à la colonne p peuvent être obtenus par différence avec la distribution marginale des lignes (p-1) et inversement pour les effectifs associés à la ligne q (q-1) (cases indépendantes grisées dans la table de contingence)
L’hypothèse testée est la suivante :
H0 : la distribution de fréquence du caractère étudié est identique pour
les différentes populations comparées.
H1 : la distribution de fréquence du caractère étudié diffère entre les
différentes populations comparées.
avec nij l’effectif observé et tij l’effectif théorique attendu sous H0
c2obs. est comparée avec la valeur seuil, c2seuil lue sur
la table du c2 pour (p-1)(q-1)ddl (degrés de liberté) et pour un risque d’erreur a fixé.
· si
· si
Remarque : | La statistique du Khi-deux c2 ne peut être calculée que si les effectifs théoriques tij sont supérieurs à 5. |
Dans ce cas, il faut regrouper à la fois toute la ligne et toute la colonne correspond à la case possédant une valeur tij inférieur à 5. |
Exemple :
Les groupes sanguins A,B,AB et O ont été déterminés dans trois échantillons (E1 : France, E2 : Roumanie, E3 : Proche-Orient) d’hommes adultes. La répartition des groupes sanguins dépend-elle d’un facteur géographique ? Réponse.
|
A |
B |
AB |
O |
E1 |
54 |
14 |
6 |
51 |
E2 |
45 |
14 |
8 |
31 |
E3 |
33 |
34 |
12 |
33 |
Le test du c2 de comparaison de deux fréquences est un cas particulier du test de comparaison de plusieurs distributions. Dans ce cas le caractère étudié présente deux modalités (A = succès,
· Table de contingence des effectifs observés (voir nomenclature A et B)
Table A Table B
|
Succès Echecs |
Effectifs |
|
Succès Echecs |
Total |
||
Echantillon 1 |
k1 |
n1- k1 |
n1 |
|
n11 |
n21 |
n.1 |
Echantillon 2 |
k2 |
n2- k2 |
n2 |
ou |
n12 |
n22 |
n.2 |
Total |
k1+k2 |
(n1+n2)-(k1+k2) |
n1+n2 |
|
n1. |
n2. |
n..= N |
· Table de contingence des effectifs attendus sous H0 : p1 = p2
|
Succès Echecs |
Total |
|
Echantillon 1 |
|
|
n.1 |
Echantillon 2 |
|
|
n.2 |
Total |
n1. |
n2. |
n..= N |
L’hypothèse testée est la suivante :
H0 : p1 = p2 contre H1 : p1 ¹ p2
avec nij l’effectif observé et tij l’effectif théorique attendu sous H0
c2obs. est comparée avec la valeur seuil, c2seuil lue sur la table du c2
pour 1 ddl (degrés de liberté) et pour un risque d’erreur a fixé.
· si
· si
Remarque : |
· La statistique du Khi-deux c2 ne peut être calculée que si les effectifs théoriques tij sont supérieurs à 5. Dans ce cas, il faut regrouper à la fois toute la ligne et toute la colonne correspond à la case possédant une valeur tij inférieur à 5. |
· La statistique du Khi-deux c2 d’une table de contingence 2 x 2 avec 1 ddl correspond au carré d’une variable normale centrée réduite e2 (démonstration). |
Exemple :
Reprendre l’exemple de l’impact des travaux dirigés dans la réussite à l’examen de statistique avec le test du Khi-deux c2. Réponse.