Chapitre 8 : Tests du c2

2         Principe des tests du c2

2.1         La statistique du c2 

La statistique du Khi-deux c2 consiste à mesurer l’écart qui existe entre la distribution des effectifs théoriques ti et la distribution des effectifs observés ni et à tester si cet écart est suffisamment faible pour être imputable aux fluctuations d’échantillonnage.

Par exemple dans le cas d’un test de c2 d’ajustement, où l’on veut comparer pour un caractère qualitatif à k modalités i ou un caractère quantitatif groupé en k classes i, une distribution observée et une distribution théorique,  la statistique du c2 est la suivante :

                                        suit une loi de Pearson ou c2

 

 

L’établissement des distributions des probabilités pi va dépendre de la nature du test du c2 (hypothèse H0) mais l’estimation des effectifs théoriques ti  sera identique à tous les tests.

            si n est l’effectif total étudié, l’effectif théorique attendu, ti pour la modalité i de la variable aléatoire X est :    

                                                             ti = n * pi            (loi des grands nombres en probabilité)

 

Remarque :

· Quelque soit le test du c2, la taille de la distribution des effectifs théoriques est strictement identique à celle des effectifs observés c’est à dire n effectif total.

· L’échantillon étudié doit être de grande taille n ³ 50

· Le test c2 est fondé sur l’approximation, à des lois normales, d’une loi multinomiale. Pour que cette approximation soit très bonne et bien que le test du c2 s’avère robuste, il est conseillé que les produits ti = n*pi, c’est à dire les effectifs théoriques ti, soient égaux ou supérieurs à 5 et de regrouper les classes adjacentes lorsque ce minimum est rencontré.

 

Quelque soit l’hypothèse nulle testée, la stratégie est la même pour tous les tests du c2.

 

   La statistique du c2  calculée (c2obs.) est comparée avec la valeur seuil, c2seuil lue sur

   la table du c2 pour k-c ddl (degrés de liberté) et pour un risque d’erreur a fixé.

 

·   si c2obs. £ c2seuil, l’hypothèse H0 ne peut être rejetée : distributions des

effectifs théoriques et observés ne sont pas significativement différentes

·   si c2obs. > c2seuil , l’hypothèse H0 est rejetée au seuil de signification a

et l’hypothèse H1 est acceptée.

 

 

2.2       Les degrés de liberté

Le nombre de degrés de liberté (ddl) est égal au nombre de composantes indépendantes

de la statistique du c2.

 

Le nombre de composantes indépendantes d’une distribution théorique ayant k modalités (effectifs théoriques supérieurs ou égaux à 5)  correspond au nombre de termes de la statistique du c2. Mais comme on impose que la taille de la distribution des effectifs théoriques soit identique à la taille de la distribution des effectifs observés, n, le kème effectif théorique est contraint d’où

Le nombre de degrés de liberté maximum est donc k-1.

avec k le nombre de termes du c2 (effectifs théoriques ³ 5)

 

Toutes les relations supplémentaires imposées pour le calcul des effectifs théoriques conduisent à réduire d’une unité le nombre de degrés de liberté. Le nombre de composantes non indépendantes ou contraintes dépendra de la nature du test du c2 (n étant une de ces contraintes, commune à tous les tests du c2) .

 

Le nombre de degrés de liberté est donc k - c avec

k le nombre de termes du c2 (effectifs théoriques ³ 5) et

c le nombre de contraintes entre les distributions comparées.