Td corrigé S5 de Psychologie - TD n° 3 pdf

S5 de Psychologie - TD n° 3

Licence de Psychologie - Semestre N° 5 - TD n° 3 ... de la statistique du khi-2 ( ² = 5,56) et son niveau de significativité (p=0,13) : .... Vérifiez vos résultats en les comparant à ceux figurant dans la feuille "Corrigé" du classeur Excel, puis ..... C: Documents-PapangoDOCUMENTPsy3-10Fiches-TD-2010-2011PSY-S5-TD3-  ...




part of the document



Licence de Psychologie - Semestre N° 5 - TD n° 3
Echange de données entre Statistica et Excel
Test du khi-2 - Tests statistiques non paramétriques



Travail sur un tableau de contingence - Test du khi-2
Enoncé
Une étude a été menée en 1990-91 sur les facteurs pouvant influer sur le port de la ceinture de sécurité par les conducteurs et les passagers de voitures de tourisme et de véhicules utilitaires. De nombreuses observations ont été effectuées (9434 au total), et ont donné lieu au relevé des éléments suivants :
- Nature du véhicule (voiture de tourisme / véhicule utilitaire)
- Age du conducteur (trois classes d'âge)
- Sexe (M / F)
- Port de la ceinture (port / non port)
- Présence d'un passager avant (oui / non)
- Le cas échéant, âge, sexe et port de la ceinture pour le passager
- Présence de passagers arrière (oui / non)
On s'intéresse tout d'abord à l'effet du type d'occupation du véhicule (conducteur seul, conducteur + passagers avant, conducteur + passagers arrière, conducteur + passagers avant et arrière) sur le port de la ceinture par le conducteur. On dispose de 8374 observations concernant cette partie de l'étude. Les données sont les suivantes :

Port ceinturenon port de ceintureSeul28253468Cond. + pass. avant729815Cond. + pass. arrière80113Cond. + pass. av. et arr.168176
On souhaite en particulier tester l'existence d'un lien entre les deux variables "Type d'occupation" et "Port de la ceinture" à l'aide d'un test du khi-2.

Mise en oeuvre du test du khi-2
Le test du khi-2 à partir d'un tableau protocole
En général, une ligne d'une feuille de données Statistica correspond à une observation. Autrement dit, nous devions ici avoir 8374 lignes du type suivant :

N° obs Type d'occupation Port ceinture1SeulOui2SeulOui.........8374Cond. + pass. av. et arr.Non
Ouvrez le classeur Ceinture.stw et affichez la feuille de données Ceinture-protocole. Observez la façon dont elle a été constituée.
Vérifier la saisie des données
La feuille de données Ceinture-protocole correspond-elle à l'énoncé ci-dessus ? On peut le vérifier en utilisant le menu : Statistiques - Statistiques élémentaires - Tableaux et tris croisés, et en sélectionnant l'onglet Tableaux croisés ou l'onglet Tris croisés. Pour l'onglet Tableaux croisés, le bouton "Spécifier les tables (sélection des variables)" permet d'avoir accès au dialogue suivant :



Avec l'onglet Tris croisés, le bouton "Spécifier les tables" affiche un dialogue analogue, mais beaucoup plus simple. On sélectionne alors des deux variables "Occupation" et "Port ceinture". Après avoir validé ce dialogue, on peut cliquer sur le bouton "Synthèse" pour obtenir un tableau de contingence du type suivant :

 EMBED STATISTICA.Spreadsheet \s 
Test du khi-2 sur un tableau protocole - Première méthode
Le test du khi-deux sur ce tableau de contingence peut être obtenu comme résultat supplémentaire de l'étude en cours. Pour cela, reprenez l'analyse en cours, activez l'onglet "Options" et cochez les cases "Chi² max de vraisemblance et Pearson" et un autre item de l'onglet, "Effectifs théoriques", par exemple).


Outre les effectifs théoriques, on obtient comme résultat la valeur de la statistique du khi-2 ((² = 5,56) et son niveau de significativité (p=0,13) :
 EMBED STATISTICA.Spreadsheet \s 

Test du khi-2 sur un tableau protocole - variante
Une deuxième méthode pour obtenir le khi-2, avec une meilleure présentation, est de procéder comme suit :
- Utiliser le menu Statistiques - Statistiques élémentaires - Tableaux et tris croisés
- Sélectionner l'onglet "Tableaux croisés" ou l'onglet "Tris croisés".
- Cliquer sur le bouton "Spécifier les tables (sélection des variables)" et spécifier "Occupation" comme première variable et "Port ceinture" comme deuxième variable.
- Après avoir validé, afficher l'onglet "Options" et cocher la case "Chi² max de vraisemblance et Pearson"
- Enfin, afficher l'onglet "Avancé" et cliquer sur le bouton "Tableaux détaillés à double entrée".
On obtient alors parmi les résultats la feuille de données suivante :

 EMBED STATISTICA.Spreadsheet \s 

Rassemblez au besoin les différentes feuilles de résultats dans le classeur Ceinture.stw et enregistrez-le.
Le test du khi-2 à partir d'un tableau d'effectifs
Si les données que nous devons traiter sont des données que nous avons nous-mêmes recueillies, nous disposons sans doute d'un tableau protocole, et le traitement précédent convient. Cependant, si nous disposons au départ d'un tableau d'effectifs ou d'un tableau de contingence, il est évidemment très fastidieux de composer une feuille de données du type précédent.

Cependant, comme nous l'avons vu dans un paragraphe précédent, Statistica permet de travailler sur des données pondérées. Nous allons donc saisir nos données de la façon suivante :

Type occupationCeintureEffectif1seuloui28252avantoui7293arrièreoui804avant et arrièreoui1685seulnon34686avantnon8157arrièrenon1138avant et arrièrenon176
Saisissez ces données dans une nouvelle feuille du classeur Ceinture.stw, nommez cette feuille Ceinture-effectifs. et rendez-la active.

Vérifiez bien que vous définissez exactement 4 modalités pour la variable "Type d'occupation" et 2 modalités pour la variable "ceinture". Pour cela, faites un double-clic sur la colonne correspondante, puis cliquez sur le bouton : Valeurs/Stats...

Les pondérations peuvent aussi bien être définies comme propriété de la feuille elle-même que comme propriété de l'une des analyses.

Dans le premier cas, on affiche la feuille de données et on utilise le bouton "pondérations" de la barre d'outils : . Les pondérations s'appliquent alors à toutes les analyses utilisant cette feuille.

Dans le deuxième cas, on utilise le menu Statistiques Elémentaires et on clique sur le bouton "pondérations"  de la fenêtre de dialogue. Les pondérations ne concerneront alors que l'analyse en cours.

Indiquez que la variable 3 (Effectif) est la variable de pondération :



Le reste du traitement peut alors être réalisé de la même façon que pour un tableau-protocole.
Pour réaliser un test du khi-2, utilisez l'item Tableaux et tris croisés. Indiquez Type occupation comme variable dans la première liste, Ceinture dans la deuxième, puis cliquez sur le bouton OK. La fenêtre de dialogue "Résultats des tableaux croisés" s'affiche pour nous permettre de sélectionner les résultats dont nous souhaitons le calcul.

Affichez l'onglet Options et sélectionnez "Effectifs théoriques" et "Chi2 ...".


Statistica affiche alors un tableau de contingence classique, le tableau des effectifs théoriques et le résultat du test du khi-2 :
EMBED STATISTICA.Spreadsheet
Ici, le khi-2 observé vaut 5,56, et son niveau de significativité est de 13,5%. On retient donc l'hypothèse H0 d'absence de lien entre les variables.

Rassemblez au besoin les différentes feuilles de résultats dans le classeur Ceinture.stw, et enregistrez-le.

Le test du khi-2 à partir d'un tableau de contingence
On peut aussi fournir à Statistica un tableau de contingence, sous la forme suivante :

 EMBED STATISTICA.Spreadsheet \s 

Parmi les méthodes d'analyse qui sont présentes dans le menu Statistiques, l'une d'elles accepte des données structurées sous cette forme, et calcule un khi-deux de contingence comme résultat annexe. C'est la méthode "Techniques exploratoires multivariées - Analyse de correspondances".

On pourra procéder de la manière suivante :
- Saisir les données dans une nouvelle feuille de données du classeur Ceinture.stw, et la nommer Ceinture-contingence.
- Rendre active la feuille Ceinture-contingence.
- Utiliser le menu Statistiques - Techniques exploratoires multivariées - Analyse de correspondances
- Activer l'onglet "Analyse des correspondances" et compléter la fenêtre de dialogue comme suit :

- Cliquer sur le bouton OK
- La valeur du khi-2 et son niveau de significativité apparaissent alors dans l'en-tête de la fenêtre de dialogue suivante :

Nombre de variables (colonnes de la table) : 2
Nombre d'observations actives (lignes de la table) : 4

Valeurs propres : ,0007
Chi² Total = 5,56307 dl = 3 p = ,1349

- Pour obtenir des détails sur la manière dont ce khi-2 a été obtenu (effectifs théoriques, ou contributions au khi-2), on pourra activer l'onglet "Etude".

Remarque : Cette méthode permet également d'obtenir le calcul du khi-2 à partir du tableau protocole ou du tableau d'effectifs utilisé au paragraphe précédent, et en évitant de définir des pondérations.
Pour travailler à partir du tableau des effectifs, par exemple :
- Chargez la feuille de données Ceinture-effectifs.sta saisie au paragraphe précédent
- Utilisez le menu Statistiques - Techniques exploratoires multivariées - Analyse de correspondances
- Cochez "Effectifs avec variables de classement" comme type de données d'entrée.
Rassemblez au besoin les différentes feuilles de résultats dans le même classeur et enregistrez-le et refermez-le.

Exercice :
1) On s'intéresse, pour les conducteurs non accompagnés, au lien entre le sexe et le port de la ceinture. Les données sont les suivantes :
Port ceinturenon port de ceintureHomme19812647Femme844821
Saisissez ces données dans une feuille de données Statistica.
Représentez graphiquement le taux de port de la ceinture selon le sexe à l'aide d'un graphique à barres.
Réalisez, de même, un test du khi-2 pour déterminer si le port de la ceinture par le conducteur dépend ou non du sexe du conducteur.

2) On se limite ici aux véhicules dans lesquels se trouvaient des passagers. On s'intéresse d'une part au port de la ceinture par la paire conducteur/passager avant et d'autre part au type de véhicule. Les données sont les suivantes :
Véh. de tourismeVéh. utilitaireCond. sans ceint., pass avec ceint.19911Cond. et pass. sans ceinture596111Cond. et pass. avec ceinture54924Cond. avec ceinture, pass. sans ceinture16110
Ouvrez un nouveau document Statistica et saisissez les données ci-dessus.
Représenter par un diagramme circulaire la répartition des paires d'occupants de véhicules de tourisme selon les 4 modalités de la variable "port de la ceinture".
Réalisez un test du khi-2 pour déterminer si les variables "comportement des occupants vis-à-vis du port de la ceinture" et "nature du véhicule" sont indépendantes ou non.
Transférer dans Statistica des données provenant d'un autre logiciel
Copier - coller des données d'Excel dans Statistica
Il est tout à fait possible de copier des données dans une feuille de calcul Excel pour les coller dans Statistica. Attention cependant au comportement de Statistica sur les valeurs de type "texte.

Ouvrez le classeur Excel Apprentissage.xls.
Chargez Statistica et affichez une nouvelle feuille de données.
Revenez à Excel ; sélectionnez la plage de cellules A2:C33 de la feuille "Données" (c'est-à-dire, l'ensemble des données, non compris les noms de variables figurant en première ligne) et copiez-la.
Retournez dans Statistica et collez-la dans la feuille de données, puis renommez les variables "Sujet", "Avant", "Après".

Affichez les caractéristiques des variables ainsi définies dans Statistica en faisant un double-clic sur la tête de la colonne correspondante. Veillez en particulier à ce que les premières lignes de chaque colonne n’aient pas été considérées comme des observations, comme dans l’exemple ci-dessous :


Sur ces copies d'écran, on s'aperçoit que la valeur de Var2 sur la première observation est "Avant" et que cette valeur est représentée de façon interne par le nombre 101. Evidemment, tous les calculs que nous pourrions faire sur cette variable conduiraient à des résultats inexacts...

Insérez ensuite la feuille obtenue dans un nouveau classeur Statistica et définissez-la comme feuille de données active.

Calculez les statistiques descriptives (moyenne et écart type) relatives aux deux variables "avant" et "après", puis réalisez un test de Student pour comparer les deux séries d’observations.

Vérifiez vos résultats en les comparant à ceux figurant dans la feuille "Corrigé" du classeur Excel, puis enregistrez votre classeur sous le nom Apprentissage.stw.
Importer un fichier Excel
Statistica peut également importer des données en provenance d'une feuille de calcul Excel, convenablement structurée.

Ouvrez à l'aide d'Excel le fichier Internat.xls. Notez la façon dont les données sont organisées : données dans la feuille 2, noms des variables en ligne 1, noms des observations en colonne A, données jusqu'en ligne 25.

Revenez à Statistica et utilisez le menu Fichier-Ouvrir, sélectionnez "Fichiers Excel (*.xls)" dans la zone d'édition "Fichiers de type . ....".
Sélectionnez alors le fichier Internat.xls, puis cliquez sur le bouton "Importer une feuille particulière dans une feuille de données" :

Dans le dialogue suivant, sélectionnez la feuille 2, puis indiquez les rôles de la première ligne et de la première colonne :


Insérez ensuite cette feuille de données dans un nouveau classeur et réalisez une comparaison de moyennes entre les conditions "Avant" et "Après". Enregistrer le classeur sous le nom International.stw.

Exercice
Des chercheurs ont réalisé une expérience visant à mettre en évidence l'effet d'une séance d'intervention motivante brève sur le comportement relatif à la consommation d'alcool.

Soixante sujets, qui ont déclaré avoir bu occasionnellement à 2 reprises ou plus au cours du mois précédant l'expérience ont été affectés au hasard soit dans un groupe contrôle, sans traitement (31 sujets) soit dans un groupe expérimental dit "groupe d'intervention brève" ou "groupe IB" (29 sujets).

Le comportement des sujets est mesuré par la variable "nombre de verres bus par semaine".

Les sujets sont évalués avant l'expérience (condition de référence). Chacun des sujets du groupe d'intervention brève bénéficie d'un entretien personnalisé relatif aux problèmes liés à l'alcool. Six semaines après l'entretien, l'ensemble des sujets est de nouveau évalué.

Les observations sont regroupées dans le classeur Excel Intervention-breve.xls.

Définissez un nouveau classeur Statistica et créez un rapport contenu dans ce classeur.
Vous placerez dans le classeur une feuille de données, avec les données convenablement organisées.
Effectuez ensuite les tests de comparaison de moyennes suivants :
- groupe IB v/s groupe contrôle en situation de référence,
- groupe IB v/s groupe contrôle lors de l'étude de suivi,
- situation de référence v/s étude de suivi pour le groupe IB).
Interprétez les résultats de ces tests en indiquant votre conclusion dans le rapport.

Tests non paramétriques sur deux groupes indépendants

Test de la médiane
Ouvrez le classeur Statistica Enfants-PRN.stw.
On veut comparer l'IDM à 24 mois dans le groupe témoin et dans le groupe expérimental à l'aide d'un test de la médiane.
Rappel de la méthode : on construit un tableau de contingence en croisant les variables "Groupe" et "Position par rapport à la médiane" et on réalise un test du khi-deux sur le tableau de contingence obtenu.
En utilisant, par exemple, le menu Statistiques - Tests non paramétriques - Statistiques ordinales, vérifiez que la médiane des IDM à 24 mois est égale à 111,5.
Dans le cours, le test de la médiane a été présenté avec une variable "Groupe" à deux modalités. Cependant, la méthode peut s'étendre sans difficultés au cas où la variable "Groupe" comporte plus de deux modalités. C'est pourquoi Statistica range ce test dans le menu : Statistiques - Tests non paramétriques - Comparaison de plusieurs échantillons indépendants :


Spécifiez la variable dépendante et la variable de classement, puis cliquez sur le bouton "Synthèse : ANOVA de Kruskal-Wallis & test de la Médiane". On obtient le résultat suivant :
 EMBED STATISTICA.Spreadsheet \s 

Remarque : Le test de la médiane ne met pas en évidence de différence entre les deux groupes. En revanche, un test unilatéral de comparaison de moyennes établit une différence au bénéfice du groupe expérimental. Mais le test de la médiane est moins puissant, et c'est nécessairement un test bilatéral.
Protocoles de rangs et test de Wilcoxon Mann Whitney
Le test de Wilcoxon Mann Whitney - Groupes indépendants
La comparaison précédente peut être reprise à l'aide d'un test de Wilcoxon Mann Whitney.
Reprenez le menu Statistiques - Tests non paramétriques. Sélectionnez l'item "Comparaison de deux échantillons indépendants". Si nécessaire, spécifiez de nouveau la variable dépendante et la variable de classement, puis cliquez sur le bouton "Test U de Mann-Whitney". Vous devriez obtenir comme résultat :

 EMBED STATISTICA.Spreadsheet \s 
La statistique calculée par Statistica est-elle la même statistique que celle indiquée en cours ?
Statistica calcule les sommes des rangs W1 et W2. On peut vérifier que la valeur Z indiquée (-2,505) correspond bien à la formule du cours :
 EMBED Equation.3      avec :       EMBED Equation.3 
En effet, on a ici :  EMBED Equation.3  EMBED Equation.3  et  EMBED Equation.3  ;
 EMBED Equation.3 ,  EMBED Equation.3 et enfin :  EMBED Equation.3 
En revanche, Statistica calcule aussi une autre statistique : le U de Mann-Whitney.

Détermination du protocole des rangs
Pour la mise en œuvre du test de Mann Whitney, la détermination préalable du protocole des rangs n'est pas nécessaire. Cependant, il peut être intéressant de le déterminer pour contrôler, par exemple, que les ex-æquo ne sont pas trop nombreux...
Le menu Données - Affecter les rangs... permet de déterminer le protocole des rangs. Mais, le protocole obtenu remplace le protocole observé à partir duquel il a été déterminé. Si nous voulons conserver à la fois le protocole des rangs et le protocole observé, nous devons au préalable faire une copie de ce dernier.
Insérez une nouvelle variable après la variable IDM-24. Cette nouvelle variable sera nommée Rg-IDM-24.
Recopiez les données de la colonne IDM-24 dans la colonne Rg-IDM-24.
Utilisez le menu Données - Affecter les rangs... en spécifiant comme variable : Rg-IDM-24 :

Au besoin, modifiez les caractéristiques de la variable Rg-IDM-24 de façon que les données s'affichent avec au moins une décimale.
On observe la présence d'assez nombreux ex-æquo dans ce protocole.
Le test de Mann Whitney sur de petits échantillons

On considère les données contenues dans le classeur : Delinquance-Juvenile.stw
On compare les deux groupes "Maison des parents" et "Foyer".
Réalisez un test de Mann-Whitney : vous devriez obtenir le résultat suivant :

 EMBED STATISTICA.Spreadsheet \s 
Compte tenu de la faible taille des échantillons, ce n'est pas le niveau de la statistique Z qu'il faut ici prendre en compte, mais la valeur indiquée dans la dernière colonne : 2*(1-p) - p exact.
Pour vérifier cette valeur, on peut se servir des "tables statistiques en ligne" accessibles à l'adresse http://geai.univ-brest.fr/~carpenti/statistiques/table1.php :

Pour le niveau de significativité calculé par Statistica, les valeurs indiquées par les tables en ligne (calculées par le logiciel de Statistiques R) sont compatibles avec les sommes de rangs observées.
En revanche, on remarquera que Statistica ne fait pas de correction pour tenir compte des ex-æquo. D'autres logiciels (Statgraphics, Minitab) font cette correction, et affichent W=56, avec un niveau de significativité de 0,1844.

Exercice
Dans une expérience, on s'est intéressé à la relation entre contextes de rappel et d'apprentissage. Dans un premier temps, deux groupes de huit et dix participants devaient apprendre une liste de 30 mots dans une pièce orange. Dans un second temps, les participants devaient se remémorer ces mots. La pièce dans laquelle le rappel avait lieu était la même que celle d'apprentissage pour le premier groupe et une pièce totalement différente pour le second groupe.

Groupe 1Groupe 2Contexte similaireContexte différent16122022191022725813151412256919
En utilisant un test non paramétrique portant sur les rangs, étudier si un contexte similaire à celui d'apprentissage favorise la remémoration (utiliser un test unilatéral et un seuil de 5%).

Tests non paramétriques sur deux groupes appareillés
Le test du khi-2 de Mac Nemar sur un tableau d'effectifs
On reprend l'exemple traité en cours : reconnaissance d'une série de portraits à deux semaines et à 1 an. Les observations sont résumées par le tableau suivant :

1 anReconnuNon reconnuDeux semainesReconnu8146Non reconnu849
Utilisez le menu Statistiques - Tests non paramétriques - Tables 2x2.
Indiquez les effectifs ci-dessus dans la fenêtre de dialogue et cliquez sur le bouton "Synthèse".
Statistica nous sert en vrac différents résultats : khi-deux "classique", phi-deux, khi-deux de Mac Nemar... A nous de savoir choisir le résultat qui nous intéresse (et qui a un sens par rapport à nos données) :

Table 2 x 2 (Feuille de données2)Colon. 1Colon. 2TotauxBrutsEffectifs, ligne 18146127%age du total44,022%25,000%69,022%Effectifs, ligne 284957%age du total4,348%26,630%30,978%Totaux colonne8995184%age du total48,370%51,630%Chi-deux (dl=1)38,98p= ,0000V-deux (dl=1)38,77p= ,0000Chi ² corrigé de Yates37,02p= ,0000Phi-deux,21186p exact Fisher, unilatéralp= ,0000bilatéralp= ,0000Chi ² de McNemar (A/D)7,39p= ,0066Chi-deux (B/C)25,35p= ,0000
Le test de comparaison de deux proportions sur des groupes appareillés, à partir d'un tableau protocole
On pourra remarquer que le test de comparaison de deux variables dichotomiques sur des groupes appareillés vu en cours de statistiques est en fait un cas particulier du test du signe. On peut ainsi le mettre en oeuvre comme suit.

Ouvrez le classeur Reconnaissance-Portraits.stw. Dans la feuille de données contenue dans ce classeur, le protocole des 184 photos a été saisi.

Utilisez le menu Statistiques - Tests non paramétriques - Comparaison de deux échantillons appariés.
Indiquez "Deux semaines" et "Un an" comme variables et cliquez sur le bouton "Test des signes". Vous devriez obtenir le résultat suivant :

Test des Signes (Feuille de données2)
Tests significatifs marqués à p 0; RgDiffAbs; -9999)
- Pour la colonne RgMoins, introduisez la formule : = iif(Diff