Chapitre 9 : Analyse de Variance

2         Conditions d’application

 

L’analyse de variance à un facteur contrôlé ou ANOVA1 a pour objectif de tester l’effet d’un facteur A sur une variable aléatoire continue. Ceci revient à comparer les moyennes de plusieurs populations normales et de même variance à partir d’échantillons aléatoires et indépendants les uns des autres. Chaque échantillon est soumis ou correspond à une modalité du facteur A. Le terme ANOVA indique que la comparaison multiple de moyennes correspond en faite à la comparaison de deux variances.

 

2.1         Structure des données

Les données relatives à une analyse de variance à un facteur contrôlé sont structurées dans un tableau du type suivant :

 

                                      Facteur A

modalité 1

 

 

modalité i

 

 

modalité p

y11

              .

y1j

.

       y1n1

 

 

y i1

.

yij

.

.

.

yini

 

 

yp1

.

ypj

.

.

      ypnp

 

 

 

 

                       

Notation :

     Le facteur contrôlé A présente p modalités (1 £ i £ p). On parle aussi de niveaux ou traitements.

      Le nombre de répétitions j pour une modalité i est noté ni. Le nombre de répétitions pour chaque modalité du facteur n’est pas forcément le même.

      La valeur prise par la variable aléatoire Y pour la modalité i du facteur et la répétition j est notée yij et les valeurs moyennes pour chaque modalité notée .

 

Exemple :

International

National

Régional

"Récréational"

24,8

45,6

33,4

31,1

26,7

41,1

34,6

35,7

27,5

34,3

36,4

37,3

30,6

37,6

39,1

39,4

32,4

39,5

43,8

40,4

38,2

 

47,9

44,5

40,5

 

49,9

45,4

42,9

 

51,2

49,8

 

 

 

50,1

 

Un test psychologique a été passé par 30 sportifs évoluant à des niveaux de compétition différents : international, national, régional et « récréational ». Une des mesures réalisées porte sur l’anxiété des sportifs au moment de la compétition. Celle-ci diffère-t-elle en fonction du niveau de compétition ? Réponse.

 

2.2       Conditions d’application de l’analyse

Les hypothèses relatives au modèle d’analyse de variances sont nombreuses. L’analyse des résidus eij, (yij -  ) est particulièrement utile pour répondre aux hypothèses de normalité et d’homoscédasticité. Mais dans le cadre d’un modèle à effet fixe, il est équivalent de tester ces hypothèses sur la variable yij.

 

2.2.1                   Indépendance

L’indépendance entre les différentes valeurs de la variable mesurée yij est une condition essentielle à la réalisation de l’analyse de variance.

 Les p échantillons comparés sont indépendants.

L’ensemble des N individus est réparti au hasard (randomisation) entre les p modalités du

facteur contrôlé A, ni individus recevant le traitement i.

 

2.2.2                 Normalité

La variable quantitative étudiée suit une loi normale dans les p populations comparées.

La variable aléatoire étudiée Y dont yij est une représentation, suit une loi normale

N(mi,s) sous H1.

 

La normalité de la variable pourra être testée à l’aide d’un test de Khi-deux d’ajustement si les effectifs sont suffisamment importants. Sinon le test non paramétrique de Lilliefors permet de tester l’ajustement à loi normale lorsque les effectifs sont faibles.

 

On peut en fait se limiter à vérifier si la distribution des valeurs eij ou yij est unimodale.

 

Remarque : Si la normalité de la variable n’est pas vérifiée, soit on peut transformer cette dernière, soit avoir recours à l’équivalent non paramétrique de l’ANOVA, le test de Kruskal-Wallis.

 

2.2.3                 Homoscédasticité

Les  p populations comparées ont  même variance.

Le facteur A agit seulement sur la moyenne de la variable Y et ne change pas sa variance.

 

 

Différents tests permettent de vérifier l’égalité des variances relatives aux p populations comparées                            H0 :  = .

 

·          Le test de Lévène est le test le plus satisfaisant pour effectuer la comparaison multiple de variances mais sa réalisation est assez longue car il correspond à une ANOVA1 sur les résidus eij.

 

·          Le test de Bartlett est dédié à la comparaison multiple de variances avec un nombre de répétitions ni différent selon les modalités i du facteur. Mais ce test est très sensible à l’hypothèse de normalité des p populations (peu robuste).

 

 ·         Le test de Hartley est dédié à la comparaison multiple de variances avec un nombre de répétitions ni identiques selon les modalités i du facteur. Mais ce test est très sensible à l’hypothèse de normalité des p populations (peu robuste).

 

Remarque : Si l’hétérogénétié entre variances est très importantes, on peut avoir recours aux statistiques non paramétriques, test de Kruskal-Wallis.

Exemple : Dans le cadre de l’exemple des sportifs, les conditions d’application de l’analyse de variance sont-elles vérifiées ? Réponse.


2.2.4                 Robustesse

De nombreux travaux ont étudié la robustesse de l’ANOVA1 vis à vis des écarts aux hypothèses faites.

       Hypothèses

              Test

       Robustesse

Normalité de Y

Test du c2 d’ajustement

Très robuste si indépendance et égalité des variances

Homoscédasticité

des p distributions

Test de Levène ou

de Bartlett

Très robuste à l’inégalité des variances

Indépendance

des p distributions

Plan expérimental

Pas robuste

 

Remarque : L’analyse de variance à un facteur contrôlé est relativement peu sensible à l’inégalité des variances ainsi qu’à la non normalité lorsque les échantillons comparés sont de grandes tailles.