Td corrigé S7 de Psychologie Sociale - TD n° 4 pdf

S7 de Psychologie Sociale - TD n° 4

Centre Régional de Documentation en Santé Publique ... Cours et exercices corrigés. ..... Cook (T.D.), Demets (D.L.) 2007, New-York : Chapman & Hall/CRC,  ...




part of the document



s - Comparaison de plusieurs échantillons indépendants :


Spécifiez la variable dépendante et la variable de classement, puis cliquez sur le bouton "Synthèse : ANOVA de Kruskal-Wallis & test de la Médiane". On obtient le résultat suivant :

 INCORPORER STATISTICA.Spreadsheet \s 

Remarque : Le test de la médiane ne met pas en évidence de différence entre les deux groupes. En revanche, un test unilatéral de comparaison de moyennes établit une différence au bénéfice du groupe expérimental. Mais le test de la médiane est moins puissant, et c'est nécessairement un test bilatéral.
Test bilatéral de Kolmogorov-Smirnov
On reprend la comparaison des deux groupes à l'aide du test de Kolmogorov-Smirnov.
Reprenez le menu Statistiques - Tests non paramétriques. Sélectionnez l'item "Comparaison de deux échantillons indépendants". Si nécessaire, spécifiez de nouveau la variable dépendante et la variable de classement, puis cliquez sur le bouton "Test de Kolmogorov-S. de deux échant.".
Vous devriez obtenir le résultat suivant :

 INCORPORER STATISTICA.Spreadsheet \s 
On sait que la mise en oeuvre du test de Kolmogorov-Smirnov repose sur le choix d'un découpage en classes, puis la détermination des fonctions de répartition (fréquences cumulées) des deux distributions observées. Il est légitime de se demander quelles sont les bornes de classes utilisées par Statistica.
Quelques manipulations sous Excel montrent que Statistica prend en fait l'ensemble des modalités observées comme bornes de classes, et construit donc le tableau de fréquences cumulées suivant :

Groupe témoinGroupe expérimentalClassesFréquence% cumuléFréquence% cumuléDifférence8013,23%0,00%-3,23%8116,45%0,00%-6,45%8819,68%0,00%-9,68%91319,35%0,00%-19,35%96122,58%14,00%-18,58%98022,58%18,00%-14,58%100125,81%08,00%-17,81%102335,48%08,00%-27,48%104448,39%08,00%-40,39%106151,61%112,00%-39,61%106051,61%012,00%-39,61%109258,06%636,00%-22,06%111161,29%036,00%-25,29%112061,29%348,00%-13,29%114474,19%256,00%-18,19%116074,19%160,00%-14,19%117074,19%164,00%-10,19%119590,32%272,00%-18,32%123193,55%072,00%-21,55%127196,77%384,00%-12,77%1321100,00%084,00%-16,00%1370100,00%292,00%-8,00%1430100,00%2100,00%,00%Total3125
De plus, il semble que Statistica utilise des tables spécifiques à ce test, et non une approximation par un khi-2.
Il peut être intéressant de visualiser la "distance" entre les deux courbes cumulatives à l'aide d'un graphique. Par exemple, utilisez le bouton "Histogramme catégorisé par groupe" du dialogue obtenu par le menu Statistiques - Tests non paramétriques - Comparaison de deux échantillons indépendants. Avec quelques modifications du graphique, on peut obtenir la représentation suivante :

 INCORPORER STATISTICA.Graph \s 
Remarque.
Le test de Kolmogorov-Smirnov peut être utilisé pour tester soit une hypothèse unilatérale (la VD a une intensité plus grande dans l'un des groupes), soit une hypothèse bilatérale (la distribution de la VD n'est pas la même dans les deux groupes). Comme pour les autres tests, Statistica ne fournit que le test bilatéral.
Test de Wald-Wolfowitz
Ainsi que nous l'avons vu en cours, le test de Wald-Wolfowitz s'applique à une variable continue, ne comportant pas d'ex-aequo. Son application à des données telles que celles de Enfants-PRN.stw risque donc de réserver quelques surprises... Nous utiliserons donc un autre exemple pour présenter ce test.

Exemple :
Des mesures de pollution organique dans deux rivières ont donné les résultats suivants :

Riv. A3412363143161510Riv. B6576182721492045411758Au vu des valeurs rencontrées, est-il possible que ces pollutions soient dues à une origine commune (c'est-à-dire, est-il possible que ces valeurs soient obtenues par un tirage au hasard dans une même population) ?

Saisissez (sous une forme convenable) ces données dans une feuille de données Statistica.
Réalisez ensuite un test de Wald-Wolfowitz, à l'aide du menu : Statistiques - Tests non paramétriques - Comparaison de deux échantillons indépendants - Test des suites de Wald-Wolfowitz.

On obtient le résultat suivant :

 INCORPORER STATISTICA.Spreadsheet \s 

Remarquez que la valeur de Z indiquerait un test significatif à 5%, alors que la valeur de "Z ajusté" indique un résultat non significatif. Vu la faible taille des échantillons, c'est ce dernier résultat qui doit être préféré. Les tables spécifiques pour ce test indiquent justement u=6 comme "valeur critique", c'est-à-dire plus grande valeur rendant le test significatif à 5%.

Quels sont les calculs faits par Statistica ?
On peut vérifier que Z= -2.0674 correspond à la formule donnée dans le cours, sans la correction de continuité, tandis que Z= -1,8249 correspond à cette même formule, correction de continuité comprise. En effet :
 INCORPORER Equation.3    et    INCORPORER Equation.3 
D'où :  INCORPORER Equation.3  et  INCORPORER Equation.3 .
On peut remarquer également que Statistica ne prend aucune précaution particulière pour traiter les petits échantillons, et que c'est donc à l'utilisateur qu'il appartient d'apprécier si l'approximation par la loi normale est ou non légitime.
Notons enfin que, comme pour tous les autres tests, les niveaux de significativité indiqués correspondent à un test bilatéral.

Les résultats fournis par Statistica comportent une cellule "Nombre d'ex-aequo". En principe, le test des suites s'applique dans des situations où il n'y a pas d'ex-aequo. Il faut également remarquer que Statistica détecte très mal la présence d'ex-aequo, comme le montre le fichier Pollution.stw.
Protocoles de rangs et test de Wilcoxon Mann Whitney
Le test de Wilcoxon Mann Whitney - Groupes indépendants
On reprend le fichier Enfants-PRN.stw.
La comparaison précédente peut être reprise à l'aide d'un test de Wilcoxon Mann Whitney.
Reprenez le menu Statistiques - Tests non paramétriques. Sélectionnez l'item "Comparaison de deux échantillons indépendants". Si nécessaire, spécifiez de nouveau la variable dépendante et la variable de classement, puis cliquez sur le bouton "Test U de Mann-Whitney". Vous devriez obtenir comme résultat :

 INCORPORER STATISTICA.Spreadsheet \s 

Statistica nous indique ici trois niveaux de significativité différents : 1,22%, 1,19% et 1,14%. A quoi correspondent ces résultats ?

La première valeur indiquée pour Z, et le premier niveau de significativité indiqué correspondent à la statistique pour "grands échantillons" donnée dans le cours, pour un test bilatéral.

La valeur "Z ajusté" correspond à une statistique Z pour grands échantillons, avec la prise en compte d'une correction pour les ex-aequo.

Le troisième niveau de significativité (0,011429) correspond à l'utilisation de la "vraie" distribution des rangs, sans approximation par une loi normale, mais aussi sans tenir compte des ex-aequo.

Comparaison de la première valeur Z et de la valeur obtenue par la statistique du cours

La statistique calculée par Statistica est-elle la même statistique que celle indiquée en cours ?
Statistica calcule les sommes des rangs W1 et W2. On peut vérifier que la valeur Z indiquée (-2,505) correspond bien à la formule du cours :
 INCORPORER Equation.3      avec :       INCORPORER Equation.3 
En effet, on a ici :  INCORPORER Equation.3  INCORPORER Equation.3  et  INCORPORER Equation.3  ;
 INCORPORER Equation.3 ,  INCORPORER Equation.3 et enfin :  INCORPORER Equation.3 
En revanche, Statistica calcule aussi une autre statistique : le U de Mann-Whitney.

Détermination du protocole des rangs et prise en compte des ex aequo
Pour la mise en oeuvre du test de Mann Whitney, la détermination préalable du protocole des rangs n'est pas nécessaire. Cependant, il peut être intéressant de le déterminer pour contrôler, par exemple, que les ex-aequo ne sont pas trop nombreux...
Le menu Données - Affecter les rangs... permet de déterminer le protocole des rangs. Mais, le protocole obtenu remplace le protocole observé à partir duquel il a été déterminé. Si nous voulons conserver à la fois le protocole des rangs et le protocole observé, nous devons au préalable faire une copie de ce dernier.
Insérez une nouvelle variable après la variable IDM-24. Cette nouvelle variable sera nommée Rg-IDM-24.
Recopiez les données de la colonne IDM-24 dans la colonne Rg-IDM-24.
Utilisez le menu Données - Affecter les rangs... en spécifiant comme variable : Rg-IDM-24 :


Au besoin, modifiez les caractéristiques de la variable Rg-IDM-24 de façon que les données s'affichent avec au moins une décimale.
On observe la présence d'assez nombreux ex-aequo dans ce protocole.

Calcul de la correction pour ex-aequo.
La présence d'ex-aequo a pour effet de diminuer la dispersion des données. L'écart type est ajusté à l'aide d'un facteur correctif donné par la formule suivante :
 INCORPORER Equation.3 
où N désigne le nombre total d'observations, la somme comporte autant de termes que de "paquets" d'ex aequo, et pour un paquet donné, tj désigne le nombre d'observations rassemblées dans le paquet.

Dans notre exemple, on dénombre 4 paquets de 2 ex aequo, 3 paquets de 3 ex aequo, 2 paquets de 4 ex aequo, et un paquet de 6, un paquet de 7 et un paquet de 8 ex aequo. Le calcul du facteur correctif donnera donc :
 INCORPORER Equation.3 
Calcul fait, on obtient :  INCORPORER Equation.3  d'où  INCORPORER Equation.3  et  INCORPORER Equation.3 .
On constate que la valeur trouvée correspond bien à celle indiquée par Statistica. Ce calcul montre également que, si les échantillons sont de taille suffisante, l'effet des ex aequo est assez limité, même dans le cas où ceux-ci sont assez nombreux.
Le test de Mann Whitney sur de petits échantillons

On considère les données contenues dans le classeur : Delinquance-Juvenile.stw
On compare les deux groupes "Maison des parents" et "Foyer".
Réalisez un test de Mann-Whitney : vous devriez obtenir le résultat suivant :

 INCORPORER STATISTICA.Spreadsheet \s 

Compte tenu de la faible taille des échantillons, ce n'est pas le niveau de la statistique Z qu'il faut ici prendre en compte, mais la valeur indiquée dans la dernière colonne : 2*(1-p) - p exact.
Pour vérifier cette valeur, on peut se servir des "tables statistiques en ligne" accessibles à l'adresse http://geai.univ-brest.fr/~carpenti/statistiques/table1.php :



Pour le niveau de significativité calculé par Statistica, les valeurs indiquées par les tables en ligne (calculées par le logiciel de Statistiques R) sont compatibles avec les sommes de rangs observées.
En revanche, on remarquera que Statistica ne fait pas de correction pour tenir compte des ex-aequo. D'autres logiciels (Statgraphics, Minitab) font cette correction, et affichent W=56, avec un niveau de significativité de 0,1844.

Exercice : Procéder de même pour effectuer les deux autres comparaisons de groupes pris deux à deux. La seule comparaison qui nous conduit à accepter l'hypothèse alternative est la troisième : les enfants placés en foyer sont moins souvent absents que les enfants placés en famille adoptive.
Test de Kruskal-Wallis
Exemple 1
Les données contenues dans le classeur Delinquance-Juvenile.stw concernent trois groupes indépendants. La comparaison globale de ces trois groupes peut être réalisée à l'aide d'un test de Kruskal-Wallis ou d'un test de la médiane.

Utilisez le menu Statistiques - Tests non paramétriques - Comparaison de plusieurs échantillons indépendants.
Sélectionnez Absentéisme comme variable dépendante, et Domiciel comme variable de classement.
Vous devriez obtenir les résultats suivants :
 INCORPORER STATISTICA.Spreadsheet \s 

 INCORPORER STATISTICA.Spreadsheet \s 

On voit que le test de Kruskal-Wallis conduit à un résultat significatif au seuil de 5%, alors que le test de la médiane ne met pas en évidence de différence entre les groupes. En effet, le test de la médiane est moins puissant que celui de Kruskal-Wallis.

Exemple 2
Ouvrez la feuille de données Kruskal.sta.
Cette feuille de données est l'un des exemples fournis avec Statistica. La présentation de ces données est la suivante :

Cet exemple est basé sur un ensemble de données (fictives) reprises de (Hays, 1981, p. 592).

De jeunes enfants ont été affectés au hasard dans trois groupes expérimentaux. On montre à chaque enfant une série de paires de stimuli. Sa tâche consiste à choisir l'un de ces stimuli et si le choix est "correct", il reçoit une récompense. Dans l'un des groupes, le critère déterminant le choix correct est la forme (groupe 1 - Forme), dans le second groupe, le critère pertinent est la couleur (groupe 2 - Couleur) et dans le troisième groupe, le critère pertinent est la taille (groupe 3 - Taille). La variable dépendante est le nombre d'essais réalisés par l'enfant pour détecter le choix qui sera récompensé.

Réalisez un test de Kruskal-Wallis sur ces données. Vous obtenez le résultat suivant :

 INCORPORER STATISTICA.Spreadsheet \s 

 INCORPORER STATISTICA.Spreadsheet \s 
Autrement dit, les résultats des deux tests sont significatifs. On constate encore que le test de la médiane est moins puissant que le test de Kruskal-Wallis.

Tests non paramétriques sur des groupes appareillés
Test du khi-2 de Mac Nemar
On reprend l'exemple traité en cours : reconnaissance d'une série de portraits à deux semaines et à 1 an. Les observations sont résumées par le tableau suivant :
1 anReconnuNon reconnuDeux semainesReconnu8146Non reconnu849Utilisez le menu Statistiques - Tests non paramétriques - Tables 2x2.
Indiquez les effectifs ci-dessus dans la fenêtre de dialogue et cliquez sur le bouton "Synthèse".
Statistica nous sert en vrac différents résultats : khi-deux "classique", phi-deux, khi-deux de Mac Nemar... A nous de savoir choisir le résultat qui nous intéresse (et qui a un sens par rapport à nos données) :
 INCORPORER STATISTICA.Spreadsheet \s 

Test du signe - Groupes appareillés

On reprend le classeur Enfants-PRN.stw et on se propose de comparer l'IDM à 6 mois et l'IDM à 24 mois dans le groupe témoin.
On veut essayer de montrer que le nombre de différences négatives est significativement grand, ou, de manière symétrique, que le nombre de différences positives est suffisamment faible pour montrer une baisse de l'IDM entre 6 et 24 mois, dans la population dont est tiré l'échantillon.
On va donc utiliser un test du signe pour comparer les scores des enfants du groupe témoin à 6 mois et à 24 mois.
Utilisez le menu Statistiques - Tests non paramétriques - Comparaison de deux échantillons appariés.
Indiquez IDM-6 et IDM-24 comme variables et cliquez sur le bouton "Test des signes".
Vous devriez obtenir le résultat suivant :
 INCORPORER STATISTICA.Spreadsheet \s 
Statistica nous indique que 38,71% des paires sont telles que IDM-6 est inférieur à IDM-24. Il calcule l'approximation par une loi normale donnée par :
 INCORPORER Equation.3    où     INCORPORER Equation.3 
et indique que le niveau de significativité de cette statistique est de 28% pour un test bilatéral.

Conclusion : on n'a pas démontré de différence significative entre l'IDM à 6 mois et l'IDM à 24 mois pour la population d'où a été tiré l'échantillon d'enfants du groupe témoin.

Remarques.
1. Nos données comprennent 31 observations pour IDM-6 (le groupe témoin seul), mais 56 pour IDM-24 (groupe témoin et groupe expérimental). Remarquez que Statistica réalise le test en ne considérant que les 31 paires "complètes" : les valeurs manquantes sont ignorées.
2. Statistica ne prévoit ici aucune procédure pour traiter le cas des petits échantillons, et l'aide renvoie à l'ouvrage de Siegel et Castellan pour traiter les cas où n < 20...

Le test de Wilcoxon - Groupes appareillés
Le test des rangs signés de Wilcoxon
La comparaison des scores IDM-6 et IDM-24 peut également être effectuée à l'aide d'un test de Wilcoxon (test des rangs signés).
Utilisez le menu Statistiques - Tests non paramétriques - Comparaison de deux échantillons appariés.
Indiquez IDM-6 et IDM-24 comme variables et cliquez sur le bouton "Test de Wilcoxon, échantillons appariés".
Vous devriez obtenir le résultat suivant :
 INCORPORER STATISTICA.Spreadsheet \s 
On vérifie que la statistique calculée par Statistica est :
 INCORPORER Equation.3  avec  INCORPORER Equation.3 
où  INCORPORER Equation.3 est le maximum des deux sommes de rangs des différences positives et négatives. Cette statistique est pratiquement celle donnée en cours.
Il faut également remarquer que, comme précédemment :
- Il n'est tenu compte des ex-aequo : Statgraphics, qui introduit une correction pour les ex-aequo, trouve Z=1,48944 au lieu de 1,3815.
- Il n'est pas prévu de procédure pour traiter le cas des petits échantillons

Remarque.
Le traitement des différences nulles est particulièrement mal pris en compte par le test de Wilcoxon mis en oeuvre dans Statistica. On pourra, par exemple, reprendre le fichier de données précédent et modifier les données en introduisant de plus en plus de différences nulles. Celles-ci ne seront éliminées (N actifs inférieur à 31) que dans de rares occasions.
Calcul du protocole des rangs signés
Il est possible de calculer le protocole des rangs signés à l'aide de Statistica. Pour cela :
- Ajoutez 4 colonnes supplémentaires en fin de tableau de données. Ces colonnes pourront être nommées : Diff, RgDiffAbs, RgPlus, RgMoins.
- Pour la colonne Diff, introduisez la formule : = V3-V4
- Pour la colonne RgDiffAbs, introduisez la formule =abs(Diff), puis transformez les valeurs en rangs.
- Pour la colonne RgPlus, introduisez la formule : = iif(Diff >0; RgDiffAbs; -9999)
- Pour la colonne RgMoins, introduisez la formule : = iif(Diff