Chapitre 8 : Test du c²

4 Tests du c²d’égalité de distributions

Comme pour le test du c²d’ajustement, on considère un caractère (quantitatif groupé en classe ou qualitatif) présentant plusieurs modalités (p modalités) mais définis sur plusieurs échantillons indépendants (q échantillons). L’hypothèse H₀ testée est « l’égalité des q distributions observées du caractère étudié «. Ce test s’apparente aux tests d’homogénéité.

4.1 Principe du test

La statistique du Khi deux c² va permettre de mesurer l’écart qui existe entre les q distributions des effectifs observés pour la variable qualitative X sous l’hypothèse d’égalité des distributions dans les q populations comparées. On teste si cet écart est suffisamment faible pour être imputable aux fluctuations d’échantillonnage.

· Les données sont structurées sous forme d’un tableau des effectifs observés ou

table de contingence.

	Caractère A
	*modalité 1*	*modalité i*	*modalité p*	Total
*Echantillon 1* *Echantillon j* *Echantillon q* Total	n₁₁	n_i₁	n_p₁	n_.₁


	n₁_j	n_i_j	n_p_j	n_._j


	n₁_q	n_i_q	n_p_q	n_._q
	n_1.	n_i.	n_p.	n_..= N

La nomenclature commune aux tables de contingence est basée sur deux indices i et j:

l’effectif n_ij est celui de la colonne i et de la ligne j avec 1 £ i £ p et 1 £ j £ q

l’effectif n_i.est la somme des effectifs de la colonne i

l’effectif n_.jest la somme des effectifs de la ligne j

l’effectif n_.. est l’effectif total de la table de contingence

· Le tableau des effectifs attendus sous l’hypothèse H₀ : les q échantillons indépendants proviennent de q populations où la distribution en fréquence du caractère étudié est identique :

	Caractère A
	*modalité 1*	*modalité i*	*modalité p*	Total
*Echantillon 1* *Echantillon j* *Echantillon q* Total				n_.₁


				n_.j


				n_.q
	n₁_.	n_i_.	n_p_.	n_..= N

Sous H₀, l’effectif attendu t_ij correspondant à la modalité i du caractère A (A_i) pour l’échantillon j peut être obtenu de la façon suivante :

P(A_i Ç échantillon j) = P(A_i) x P(échantillon j) (deux évènements indépendants)

d’où P_ij = = avec t_ijeffectif attendu

d’où t_ij= N * P_ij ainsi t_ij =

Tous les effectifs attendus sont obtenus par le rapport du produit des distributions marginales sur l’effectif total de la table de contingence.

t_i_j =

Ainsi, le nombre de degrés de liberté correspondant au nombre d’effectifs estimés indépendants est (p - 1)(q - 1). Les effectifs associés à la colonne p peuvent être obtenus par différence avec la distribution marginale des lignes (p-1) et inversement pour les effectifs associés à la ligne q (q-1) (cases indépendantes grisées dans la table de contingence)

4.2 Application et décision

L’hypothèse testée est la suivante :

H₀ : la distribution de fréquence du caractère étudié est identique pour

les différentes populations comparées.

H₁ : la distribution de fréquence du caractère étudié diffère entre les

différentes populations comparées.

p : nombre de colonnes, q : nombre de lignes

avec n_ij l’effectif observé et t_ij l’effectif théorique attendu sous H₀

c²_obs. est comparée avec la valeur seuil, c²_seuil lue sur

la table du c² pour (p-1)(q-1)ddl (degrés de liberté) et pour un risque d’erreur a fixé.

· si > l’hypothèse H₀est rejetée au risque d’erreur a : les différents échantillons sont extraits de populations ayant des distributions différentes du caractère étudié.

· si £ l’hypothèse H₀est acceptée: les différents échantillons sont extraits de populations ayant la même distribution du caractère étudié.

Remarque :	La statistique du Khi-deux c² ne peut être calculée que si les effectifs théoriques t_ijsont supérieurs à 5.
	Dans ce cas, il faut regrouper à la fois toute la ligne et toute la colonne correspond à la case possédant une valeur t_ij inférieur à 5.

Exemple :

Les groupes sanguins A,B,AB et O ont été déterminés dans trois échantillons (E₁ : France, E₂ : Roumanie, E₃ : Proche-Orient) d’hommes adultes. La répartition des groupes sanguins dépend-elle d’un facteur géographique ? Réponse.

	A	B	AB	O
E1	54	14	6	51
E2	45	14	8	31
E3	33	34	12	33

4.3 Cas particulier de la comparaison de deux fréquences

Le test du c²de comparaison de deux fréquences est un cas particulier du test de comparaison de plusieurs distributions. Dans ce cas le caractère étudié présente deux modalités (A = succès,

= échec) et est étudié sur deux échantillons indépendants extraits de deux populations. On fait l’hypothèse que les deux échantillons proviennent de 2 populations dont les probabilités de succès sont identiques : H₀ : p_{1 =}p₂.

· Table de contingence des effectifs observés (voir nomenclature A et B)

Table A Table B

	Succès Echecs		Effectifs		Succès Echecs		Total
Echantillon 1	k₁	n₁- k₁	n₁		n₁₁	n₂₁	n_.1
Echantillon 2	k₂	n₂- k₂	n₂	ou	n₁₂	n₂₂	n_.2
Total	k₁+k₂	(n₁+n₂)-(k₁+k₂)	n₁+n₂		n₁_.	n₂_.	n_..= N

· Table de contingence des effectifs attendus sous H₀ : p_{1 =}p₂

	Succès Echecs		Total
Echantillon 1			n_.1
Echantillon 2			n_.2
Total	n₁_.	n₂_.	n_..= N

L’hypothèse testée est la suivante :

H₀: p_{1 =}p₂contre H₁: p₁_¹p₂

suit une loi du Khi-deux c²

avec n_ij l’effectif observé et t_ij l’effectif théorique attendu sous H₀

c²_obs. est comparée avec la valeur seuil, c²_seuil lue sur la table du c²

pour 1 ddl (degrés de liberté) et pour un risque d’erreur a fixé.

· si > l’hypothèse H₀est rejetée au risque d’erreur a : les deux échantillons sont extraits de deux populations ayant des probabilités de succès respectivement p₁et p₂.

· si £ l’hypothèse H₀est acceptée: les deux échantillons sont extraits de deux populations ayant même probabilité de succès p.

Remarque :

· La statistique du Khi-deux c² ne peut être calculée que si les effectifs théoriques t_ijsont supérieurs à 5. Dans ce cas, il faut regrouper à la fois toute la ligne et toute la colonne correspond à la case possédant une valeur t_ij inférieur à 5.

· La statistique du Khi-deux c² d’une table de contingence 2 x 2 avec 1 ddl correspond au carré d’une variable normale centrée réduite e² (démonstration).

Exemple :

Reprendre l’exemple de l’impact des travaux dirigés dans la réussite à l’examen de statistique avec le test du Khi-deux c². Réponse.

Chapitre 8 : Test du c2

4 Tests du c2d’égalité de distributions

4.1 Principe du test

4.2 Application et décision

4.3 Cas particulier de la comparaison de deux fréquences

Chapitre 8 : Test du c²

4 Tests du c²d’égalité de distributions