L’analyse de variance à un facteur contrôlé ou ANOVA1 a pour objectif de tester l’effet d’un facteur A sur une variable aléatoire continue. Ceci revient à comparer les moyennes de plusieurs populations normales et de même variance à partir d’échantillons aléatoires et indépendants les uns des autres. Chaque échantillon est soumis ou correspond à une modalité du facteur A. Le terme ANOVA indique que la comparaison multiple de moyennes correspond en faite à la comparaison de deux variances.
Les données relatives à une analyse de variance à un facteur contrôlé sont structurées dans un tableau du type suivant :
Facteur A |
||||||
modalité 1 |
|
|
modalité i |
|
|
modalité p |
y11 . y1j . y1n1 |
|
|
y i1 . yij . . . yini |
|
|
yp1 . ypj . . ypnp |
|
|
|
|
|
|
|
Notation :
Le facteur contrôlé A présente p modalités (1 £ i £ p). On parle aussi de niveaux ou traitements.
Le nombre de répétitions j pour une modalité i est noté ni. Le nombre de répétitions pour chaque modalité du facteur n’est pas forcément le même.
La valeur prise par la variable aléatoire Y pour la modalité i du facteur et la répétition j est notée yij et les valeurs moyennes pour chaque modalité notée .
Exemple :
International |
National |
Régional |
"Récréational" |
24,8 |
45,6 |
33,4 |
31,1 |
26,7 |
41,1 |
34,6 |
35,7 |
27,5 |
34,3 |
36,4 |
37,3 |
30,6 |
37,6 |
39,1 |
39,4 |
32,4 |
39,5 |
43,8 |
40,4 |
38,2 |
|
47,9 |
44,5 |
40,5 |
|
49,9 |
45,4 |
42,9 |
|
51,2 |
49,8 |
|
|
|
50,1 |
Un test psychologique a été passé par 30 sportifs évoluant à des niveaux de compétition différents : international, national, régional et « récréational ». Une des mesures réalisées porte sur l’anxiété des sportifs au moment de la compétition. Celle-ci diffère-t-elle en fonction du niveau de compétition ? Réponse.
Les hypothèses relatives au modèle d’analyse de variances sont nombreuses. L’analyse des résidus eij, (yij - ) est particulièrement utile pour répondre aux hypothèses de normalité et d’homoscédasticité. Mais dans le cadre d’un modèle à effet fixe, il est équivalent de tester ces hypothèses sur la variable yij.
L’indépendance entre les différentes valeurs de la variable mesurée yij est une condition essentielle à la réalisation de l’analyse de variance.
Les p échantillons comparés sont indépendants.
L’ensemble des N individus est réparti au hasard (randomisation) entre les p modalités du
facteur contrôlé A, ni individus recevant le traitement i.
La variable quantitative étudiée suit une loi normale dans les p populations comparées.
La variable aléatoire étudiée Y dont yij est une représentation, suit une loi normale
N(mi,s) sous H1.
La normalité de la variable pourra être testée à l’aide d’un test de Khi-deux d’ajustement si les effectifs sont suffisamment importants. Sinon le test non paramétrique de Lilliefors permet de tester l’ajustement à loi normale lorsque les effectifs sont faibles.
On peut en fait se limiter à vérifier si la distribution des valeurs eij ou yij est unimodale.
Remarque : | Si la normalité de la variable n’est pas vérifiée, soit on peut transformer cette dernière, soit avoir recours à l’équivalent non paramétrique de l’ANOVA, le test de Kruskal-Wallis. |
Les p populations comparées ont même variance.
Le facteur A agit seulement sur la moyenne de la variable Y et ne change pas sa variance.
Différents tests permettent de vérifier l’égalité des variances relatives aux p populations comparées H0 : = .
· Le test de Lévène est le test le plus satisfaisant pour effectuer la comparaison multiple de variances mais sa réalisation est assez longue car il correspond à une ANOVA1 sur les résidus eij.
· Le test de Bartlett est dédié à la comparaison multiple de variances avec un nombre de répétitions ni différent selon les modalités i du facteur. Mais ce test est très sensible à l’hypothèse de normalité des p populations (peu robuste).
· Le test de Hartley est dédié à la comparaison multiple de variances avec un nombre de répétitions ni identiques selon les modalités i du facteur. Mais ce test est très sensible à l’hypothèse de normalité des p populations (peu robuste).
Remarque : | Si l’hétérogénétié entre variances est très importantes, on peut avoir recours aux statistiques non paramétriques, test de Kruskal-Wallis. |
Exemple : Dans le cadre de l’exemple des sportifs, les conditions d’application de l’analyse de variance sont-elles vérifiées ? Réponse.
De nombreux travaux ont étudié la robustesse de l’ANOVA1 vis à vis des écarts aux hypothèses faites.
Hypothèses |
Test |
Robustesse |
Normalité de Y |
Test du c2 d’ajustement |
Très robuste si indépendance et égalité des variances |
Homoscédasticité des p distributions |
Test de Levène ou de Bartlett |
Très robuste à l’inégalité des variances |
Indépendance des p distributions |
Plan expérimental |
Pas robuste |
Remarque : | L’analyse de variance à un facteur contrôlé est relativement peu sensible à l’inégalité des variances ainsi qu’à la non normalité lorsque les échantillons comparés sont de grandes tailles. |