S7 de Psychologie Sociale - TD n° 4 - Doc. Péda. FG Carpentier
PSY73B : Informatique : traitement des données - TD N°4 .... Statistiques -
Statistiques Elémentaires - Statistiques Descriptives et l'onglet "Nuages de points
/probas" : ... le taux de mortalité, corrigé de la structure par âge de la population
totale .... et on poursuit la méthode jusqu'à ce que les variables explicatives
restantes ...
part of the document
Master de Psychologie - 1ère année
PSY73B : Informatique : traitement des données - TD N°4
Corrélation et régression
Corrélation linéaire
Coefficient de corrélation
L'association des étudiants d'une grande université (américaine) a publié une évaluation de plus de cent cours enseignés durant le semestre précédent. Les étudiants de chaque cours avaient rempli un questionnaire d'évaluation portant sur différents aspects du cours; l'évaluation se faisait sur une échelle en cinq points (1=très mauvais, 5=excellent).
Les données saisies dans le fichier Eval-Cours.stw sont les données réelles. Elles représentent les scores moyens enregistrés sur 6 variables pour un échantillon de 50 cours.
Ces variables étaient :
- la qualité globale des exposés (Qual-Glob)
- les aptitudes pédagogiques du professeur (Pédagogie)
- la qualité des tests et examens (Examen)
- la connaissance de la matière dont témoigne le professeur, telle qu'elle est perçue par les étudiants (Connaissance)
- les résultats auxquels s'attendent les étudiants pour ce cours (Résultat, de très bon à insuffisant)
- le nombre d'inscriptions à ce cours (Inscription)
On souhaite étudier les liens qui existent entre ces différentes variables.
Pour obtenir les coefficients de corrélation entre les différentes variables, on pourra utiliser le menu Statistiques - Statistiques Elémentaires - Matrices de corrélation. On peut utiliser l'onglet "Options" pour limiter l'affichage à la matrice des corrélations :
EMBED PBrush
EMBED STATISTICA.Spreadsheet \s
On voit que les coefficients de corrélation entre les 5 premières variables sont positifs, alors que la 6ème variable est corrélée négativement (anti-corrélée) avec les 5 autres.
Alpha de Cronbach
On reprend les données Enquete-Fraude.stw, décrites dans le polycopié précédent. On souhaite mesurer la cohérence des réponses des sujets quant aux techniques de fraude, afin d'estimer s'il est pertinent de construire une variable telle que ScoreTricheTotal.
Utilisez le menu Statistiques - Techniques exploratoires multivariées - Fiabilité et analyse d'échelle.
Sélectionnez les variables de "Copier" jusqu'à "Autres" et cliquez sur OK.
On peut alors afficher les corrélations entre les variables à l'aide du bouton "corrélations". Toutefois, le menu Statistiques - Statistiques Elémentaires - Matrices de corrélation permet également de visualiser quels sont les coefficients de corrélation qui sont significatifs d'un lien entre les variables.
L'onglet "Matrice" permet d'afficher les données dans une feuille de données d'un type particulier, une matrice, pour servir par exemple de données d'entrée à une classification.
Une telle feuille est caractérisée par la présence d'observations supplémentaires dans le bas du tableau :
EMBED STATISTICA.Spreadsheet \s
et s'enregistre dans un format particulier (fichiers d'extension .smx).
Cliquez ensuite sur le bouton OK. On affiche ainsi la fenêtre de dialogue suivante :
EMBED PBrush
La valeur du coefficient Alpha de Cronbach pour l'ensemble des items est 0,79. Le coefficient standardisé est celui que l'on obtiendrait en effectuant une transformation par centrage et réduction sur chaque variable avant de faire la somme.
Le bouton "Synthèse" permet d'avoir des résultats plus détaillés :
EMBED STATISTICA.Spreadsheet \s
On voit, par exemple, que l'on pourrait améliorer le coefficient Alpha en retirant la variable "GarderCopie" ou la variable "Autres".
Corrélation des rangs
La distribution des variables évaluant les différentes techniques de fraude s'écarte notablement d'une loi normale. Pour mesurer les liens existant entre ces variables il peut sembler préférable de calculer des coefficients de corrélation non paramétriques.
Utilisez le menu Statistiques - Tests non paramétriques - Corrélations (Spearman, tau de Kendall, Gamma).
Vous obtenez pour le R de Spearman :
EMBED STATISTICA.Spreadsheet \s
et, pour le tau de Kendall :
EMBED STATISTICA.Spreadsheet \s
Quant à la statistique Gamma, l'aide de Statistica 7 indique :
Gamma. La statistique Gamma (Siegel & Castellan, 1988) est préférable au R de Spearman ou au Tau de Kendall lorsque les données contiennent de nombreux ex-aequo. En termes d'hypothèses sous-jacentes, Gamma est équivalent au R de Spearman ou au Tau de Kendall ; en termes d'interprétation et de calculs, il est plus proche du Tau de Kendall que du R de Spearman. En résumé, Gamma est également une probabilité ; plus précisément, il se calcule comme la différence entre la probabilité que le rang de deux variables soit identique, moins la probabilité qu'il soit différent, divisé par 1 moins la probabilité d'ex-aequo. C'est pourquoi, Gamma est en fait équivalent au Tau de Kendall, à la différence que les ex-aequo sont ici, explicitement pris en compte.
Régression linéaire à deux ou plusieurs variables
Régression linéaire à deux variables
On reprend les données Eval-Cours.stw utilisées au paragraphe 18.1. On souhaite déterminer la droite de régression de Qual-Glob par rapport à Pédagogie.
Equation de la droite de régression
On peut, pour cela, utiliser le menu Statistiques - Régression linéaire multiple :
On indique Qual-Glob comme variable dépendante, Pédagogie comme variable indépendante et on clique sur OK.
Le bouton "Synthèse : résultats de la régression" du dialogue suivant permet d'obtenir l'équation de la droite de régression :
EMBED STATISTICA.Spreadsheet \s
On obtient ainsi comme équation pour la régression :
Qual-Glob = 0,1541 + 0,9268 * Pédagogie.
Nuage de points et droite de régression
Le plus simple est d'utiliser ici le menu Statistiques - Statistiques Elémentaires - Statistiques Descriptives et l'onglet "Nuages de points/probas" :
EMBED PBrush
Statistica nous affiche le nuage de points, la droite de régression, et les "bandes" donnant l'intervalle de confiance pour la droite de régression, au degré de confiance de 95%. Cet intervalle de confiance correspond aux différentes positions que la droite serait susceptible d'occuper si on recommençait les calculs à partir d'un autre échantillon.
En cliquant sur le graphique à l'aide du bouton droit de la souris, on a accès au menu Propriétés du Graphique (Toutes les Options). L'onglet "Bandes de Régr" permet alors de supprimer les bandes donnant l'intervalle de confiance, ou de leur substituer les représentations graphiques de l'intervalle de détermination, c'est-à-dire la bande du plan qui devrait rassembler 95% des couples (x, y) observés sur la population.
On peut aussi (comme ci-dessous), représenter les deux types de bandes en introduisant un deuxième jeu de bandes à l'aide du bouton "Nouvelles Bandes".
Régression linéaire à plusieurs variables : recherche d'un modèle explicatif
Présentation de l'exemple
Exercice adapté à partir de "Les disparités géographiques des dépenses de santé: deux modèles explicatifs pour le secteur libéral", de Roquefeuil, L., Solidarité Santé, N° 4, 1996.
Des variations dans le niveau des dépenses de santé allant du simple au double ont été observées entre les départements. Plusieurs variables peuvent expliquer ce phénomène : la densité des médecins libéraux et la densité de leur clientèle, la morbidité de la population, la proportion de personnes âgées ou l'influence du tiers-payant sur la dépense. Sont étudiées ici :
- l'IDRS ou indicateur des dépenses de remboursement de soins du secteur libéral
- la densité de médecins libéraux dans l'unité géographique concernée
- la mobilité de la clientèle des médecins libéraux : un indicateur de mobilité positif signifie que la valeur des soins "produits" par les médecins de l'unité géographique est supérieure à la valeur des soins "consommés" par la population de l'unité ; un indicateur négatif au contraire, signifie qu'une partie de la population de l'unité va se faire soigner à l'extérieur de celle-ci.
- la mobilité de la clientèle des médecins spécialistes
- le taux de mortalité, corrigé de la structure par âge de la population totale
- la proportion de personnes âgées de 70 ans et plus
- la part (en %) de dépenses de santé réglées en tiers payant.
Deux niveaux d'unités géographiques sont considérés : les données sont fournies par département et par région.
N.B. Les données figurant dans le fichier sont celles indiquées par l'auteur en annexe de son article, et non des données recréées artificiellement.
Etude au niveau départemental
Ouvrez le classeur IDRS.stw et activez la feuille IDRS-Dept.
Affichez les statistiques descriptives relatives aux données présentées. Vous devriez obtenir :
EMBED STATISTICA.Feuille de données \s
Affichez la matrice des corrélations entre les variables :
EMBED STATISTICA.Feuille de données \s
Effectuez ensuite une régression linéaire multiple de la variable IDRS sur les autres variables numériques.
Utilisez ensuite le menu Statistiques - Régression Multiple
Sous l'onglet "Base", spécifiez IDRS comme variable dépendante, les 6 autres variables numériques comme variables indépendantes.
Statistica nous affiche alors l'essentiel des résultats de la régression. On peut notamment afficher les résultats de l'ANOVA (bouton ANOVA) montrant qu'ici, le coefficient de régression multiple est significativement différent de 0, ou encore qu'il existe un lien linéaire significatif entre la variable IDRS et les autres variables :
EMBED STATISTICA.Feuille de données \s
On peut cliquer sur le bouton OK pour avoir accès à d'autres résultats.
Le bouton "Synthèse de la régression" (onglet "Avancé") affiche les résultats suivants :
EMBED STATISTICA.Feuille de données \s
La colonne "B" donne les coefficients de l'équation de régression linéaire. Le modèle fourni par la régression linéaire est le suivant :
IDRS = -302 + 8,6 *Dens. Méd - 18,9 * Mobi Géné - 3,57 * Mobi Spéc + 72.2 * Mort. + 72,2 Part Agées + 24,6 * Tiers-P
La valeur de R2 est de 0,91 : 91% de la variance de la variable IDRS est expliquée par le modèle.
Les coefficients de la colonne "Bêta" sont les coefficients standardisés, c'est-à-dire les coefficients que l'on observerait si on utilisait des variables centrées réduites au lieu des variables observées. On peut également les interpréter comme suit : lorsque "Densité Médecins" augmente d'un écart type, la variable "IDRS" estimée augmente de 0,65 écart type, lorsque la variable "Mobilité omnipraticiens" augmente d'un écart type, "IDRS" diminue de 0,23 écart type.
Par exemple, on pourra vérifier que
EMBED Equation.3
Les valeurs de t sont obtenues en divisant la valeur correspondante de B par son erreur type. Autrement dit, on teste si le coefficient B est significativement différent de 0.
Sous l'onglet "Nuage", on pourra obtenir différentes représentations graphiques dont, par exemple, le graphique illustrant l'adéquation entre les valeurs observées et les valeurs théoriques :
EMBED STATISTICA.Graphiques \s
Liens entre les prédicteurs, tolérance, coefficients de corrélation partielle
On reprend les données Eval-Cours.stw. On veut estimer la variable Qual-Glob en utilisant comme prédicteurs les 5 autres variables.
Déterminer l'équation de régression et le coefficient de corrélation. Vous devriez obtenir :
Qual-Glob = - 1.19 + 0.763 Péda + 0.132 Exam + 0.489 Connai - 0.184 Rés +0.000525 Inscr
Mais, est-il bien nécessaire d'utiliser un modèle à 5 prédicteurs ? Un modèle comportant moins de prédicteurs ne serait-il pas tout aussi pertinent ?
On peut déjà noter que seuls les coefficients relatifs à Pédagogie et à Connaissance sont significativement différents de 0 :
EMBED STATISTICA.Spreadsheet \s
D'autres éléments de réponse peuvent être obtenus à partir du bouton "Corrélations partielles" du dialogue "Résultats".
La colonne "Corrél Partiel." donne les coefficients de corrélation partielle entre la variable Qual-Glob et chacun des prédicteurs, c'est à dire les coefficients observés lorsque les autres variables sont "contrôlées". On voit ici que seuls Pédagogie et Connaissance semblent avoir un effet significatif sur Qual-Glob, résultat qu'on retrouverait en faisant une régression linéaire pas à pas (cf. exemple suivant).
La colonne R2 donne le carré du coefficient de régression multiple de chacune des variables prédictrices sur les autres prédicteurs. La tolérance est simplement la quantité 1-R2. Un R2 très proche de 1 (par exemple une tolérance inférieure à 0,1) indique que la variable concernée est "presque" une combinaison linéaire des autres variables. Il est alors préférable d'éliminer des prédicteurs dans le modèle.
EMBED STATISTICA.Feuille de données \s
Finalement, le modèle le plus pertinent semble être celui ne faisant intervenir que les deux prédicteurs Pédagogie et Connaissance :
EMBED STATISTICA.Spreadsheet \s
Qual-Glob = - 1.2984 + 0.7097 Péda + 0.5383 Connai
Calcul "à la main" des coefficients de corrélation partielle
On veut calculer le coefficient de corrélation partielle entre la variable Qual-Glob et la variable Pédagogie. Nous allons procéder en trois étapes :
- Déterminez les résidus de la régression de la variable Qual-Glob par rapport aux 4 autres variables (Examen, Connaissance, Résultat, Inscription).
- Déterminez de même les résidus de la régression de la variable Pédagogie par rapport aux 4 autres variables.
- Créez une nouvelle feuille de données et collez dans les deux premières colonnes de cette feuille les colonnes "Résidus" des feuilles de résultats précédentes.
- Supprimez les 4 dernières observations qui viennent d'être collées (il s'agit de paramètres descriptifs des résidus, sans intérêt ici).
- Calculez enfin le coefficient de corrélation entre les deux variables ainsi définies. Vous devriez retrouver le résultat, à savoir : r=0,65.
Corrélations partielles et neutralisation de l'effet d'un facteur
Ouvrez le fichier Coping.stw du répertoire Corrélations-Partielles.
On a relevé les valeurs de deux variables numériques, RSS et DI, sur 12 sujets, 6 hommes et 6 femmes :
SujetSexeRSSDIRSS centrée par sexeDI centrée par sexe1s1F50-4-1,332s2F80-1-1,333s3F921-0,334s4F10100,675s5F10330,676s6F12211,677s7H20-3,33-0,178s8H40-1,33-0,179s9H600,67-0,1710s10H600,67-0,1711s11H600,67-0,1712s12H812,670,83
On constate un effet important du facteur sexe : pour les deux variables, les scores des hommes et ceux des femmes sont notablement différents.
Calculer le coefficient de corrélation des variables RSS et DI. On obtient : r = 0,77. Ce coefficient est difficile à interpréter, car il est dû à la fois au lien éventuel entre RSS et DI et à l'effet du facteur Sexe.
Comment neutraliser l'effet du sexe dans le calcul de l'intensité du lien entre RSS et DI ?
1) Faites une régression multiple de DI sur les variables Sexe et RSS, afin d'évaluer les coefficients de corrélation partielle. Vous devriez obtenir :
EMBED STATISTICA.Spreadsheet \s
Ainsi, après neutralisation de l'effet du sexe, la corrélation entre RSS et DI n'est que de r'=0,63. Elle reste cependant significative.
2) De manière équivalente, on peut remplacer chaque valeur observée de RSS et DI par son écart algébrique à la moyenne par sexe correspondante. C'est ce qui a été fait dans les colonnes "RSS centrée par sexe" et "DI centrée par sexe".
Par exemple, RSS vaut 5 sur le sujet féminin s1, et vaut 9 pour les femmes. La valeur de "RSS centrée par sexe" sur le sujet s1 est donc : 5 - 9 = -4.
Le coefficient de corrélation des deux variables centrées par sexe est alors exactement le coefficient de corrélation partielle précédent :
EMBED STATISTICA.Spreadsheet \s
Régression linéaire pas à pas
Principe de la méthode
Les données sont formées par une VD Y et plusieurs variables explicatives X1, X2, ..., Xp.
On choisit, parmi les variables explicatives, celle qui est le mieux corrélée à Y. Pour simplifier les notations, nous supposerons qu'il s'agit de la variable X1.
On calcule l'équation de régression linéaire de Y sur X1 : Y = b1 X1 + b0.
On calcule alors les résidus : R1 = Y - b1 X1.- b0
On choisit, parmi les variables explicatives restantes, celle qui est le mieux corrélée à R1. Nous supposons ici qu'il s'agit de la variable X2.
On calcule l'équation de régression linéaire de Y sur X1 et X2 : Y = b'1 X1 + b2 X2 + b'0.
On calcule les nouveaux résidus : R2 = Y - (b'1 X1 + b2 X2 + b'0) et on poursuit la méthode jusqu'à ce que les variables explicatives restantes ne soient plus significativement corrélées aux résidus.
Présentation de l'exemple
Exercice adapté à partir de "Intelligence pratique ou traditionnelle : Que mesure l'entrevue structurée situationnelle ?", Durivage A., St-Martin J., Barette J., Revue européenne de Psychologie Appliquée, 1995, vol. 45 n° 3, pp. 171-178.
L'objectif de l'étude consiste à explorer le construit sous-jacent à l'entrevue structurée situationnelle lors de la sélection du personnel. Constitue-t-elle une mesure de l'intelligence traditionnelle (QI) ou de connaissances tacites associées théoriquement à de l'intelligence pratique.
Méthodologie : l'entrevue structurée situationnelle et les tests ont été administrés à 48 candidats potentiels à un poste de responsable des bénévoles dans un centre hospitalier psychiatrique du Québec. Les variables suivantes ont été recueillies :
- Score à l'entrevue structurée : échelle de 0 à 40
- Score au BGTA : batterie générale de tests d'aptitude mesurant l'intelligence traditionnelle. Ce score est ici donné sous la forme d'une variable centrée et réduite
- Scores sur les dimensions "Organisation", "Impulsivité", "Compréhension", "Altruisme" des tests de personnalité de Jackson (échelles de 0 à 20)
- Age (de 20 à 41 ans dans l'expérience originale)
- Le nombre d'années d'expérience de travail à temps plein (de 0 à 21 ans dans l'expérience originale).
Régression linéaire pas à pas de Entrevue sur les autres variables
Chargez le classeur Entrevue-structuree.stw, qui contient des données générées artificiellement, conformes aux résultats indiqués par les auteurs.
Affichez les statistiques descriptives relatives aux données présentées. Vous devriez obtenir :
EMBED STATISTICA.Feuille de données \s
Affichez la matrice des corrélations entre les différentes variables. Quelles sont les corrélations qui apparaissent significatives ?
EMBED STATISTICA.Feuille de données \s
Exécution de la procédure
Utilisez ensuite le menu Statistiques - Régression Multiple
Sous l'onglet "Avancé", spécifiez Entrevue comme variable dépendante, les 7 autres variables comme variables indépendantes. Cochez l'option "régression ridge ou pas-à-pas".
Dans le dialogue suivant, activez l'onglet "pas-à-pas" et sélectionnez la méthode "pas à pas ascendante", et l'affichage des résultats à chaque étape :
A la première étape, Statistica affiche les résultats suivants :
Cliquez sur "suivant". On obtient :
puis :
Il ne reste plus de variable significativement corrélée aux résidus, et Statistica substitue le bouton "OK" au bouton "Suivant". Cliquez sur ce bouton.
Analyse des résultats
Sous l'onglet "Avancé", le bouton "Synthèse de la régression" permet d'obtenir les résultats suivants :
EMBED STATISTICA.Feuille de données \s
Ainsi, l'équation de régression obtenue par ce modèle est :
Entrevue = 0,64 * Comprehension + 0,37 * Age + 13,14
Ce modèle explique 38% de la variance de la variable Entrevue. Les coefficients de la colonne "Bêta" sont les coefficients standardisés, c'est-à-dire les coefficients que l'on observerait si on utilisait des variables centrées réduites au lieu des variables observées. On peut également les interpréter comme suit : lorsque "Comprehension" augmente d'un écart type, la variable "Entrevue" estimée augmente de 0,48 écart type, lorsque la variable "Age" augmente d'un écart type, "Entrevue" augmente de 0,4 écart type.
Les valeurs de t sont obtenues en divisant la valeur correspondante de B par son erreur type. Autrement dit, on teste si le coefficient B est significativement différent de 0.
On peut également obtenir le tableau des valeurs observées et des valeurs estimées de la variable Entrevue (Onglet "Avancé", bouton Synthèse : Résidus et prévisions)
EMBED STATISTICA.Feuille de données \s
Diverses représentations graphiques peuvent être obtenues. Un nuage de points tri-dimensionnel Entrevue - Comprehension - Age serait peu lisible. En revanche, on pourra construire un graphique comparant les valeurs observées aux valeurs estimées par le modèle (Onglet "Nuages", bouton "Prévues v/s observées") :
EMBED STATISTICA.Graphiques \s
Variantes
On peut souhaiter recueillir également des informations concernant les variables qui ont été écartées du modèle. Reprenez par exemple l'étude, en indiquant cette fois 0,01 comme valeur limite de F pour inclure une variable :
La régression pas à pas est alors faite sur toutes les variables, avec les résultats suivants. On notera que l'ajout des 5 variables restantes ne permet pas vraiment d'augmenter la part de variance expliquée (40% au lieu de 38%). On notera que, lorsqu'est introduite la variable "Ancienneté", fortement corrélée à l'âge, ni "Ancienneté" ni "Age" ne restent significatifs.
EMBED STATISTICA.Feuille de données \s
Exercice à rendre par mail
Réalisez l'étude demandée dans l'exercice ci-dessous. Faites parvenir votre travail (classeur Statistica contenant les traitements demandés, commentaire saisi dans un rapport Statistica ou un fichier Word) par mail à votre enseignant (adresse : Francois.Carpentier@univ-brest.fr).
Source des données : Source : http://www.amstat.org/publications/jse/jse_data_archive.html
Dans les débats autour des réformes du système éducatif, il a été fréquemment affirmé que la dépense d'éducation par élève n'était pas un gage de réussite. A l'appui de cette affirmation, certains ont souligné que parmi les dix états américains dont la dépense moyenne par élève était la plus basse en 1994/95, quatre se trouvaient parmi les dix états qui avaient les meilleurs résultats au SAT.
Pour étudier cette question, des statisticiens américains ont extrait du Digest of Education Statistics les données suivantes :
Nom de l'état
Dépense par élève moyenne dans les écoles publiques élémentaires et secondaires, en milliers de dollars (1994-95)
Taux d'encadrement : ratio élève par enseignant
Salaire annuel moyen estimé des enseignants des écoles publiques élémentaires et secondaires
Pourcentage d'inscrits au SAT parmi les élèves satisfaisant les conditions d'inscription
Score moyen observé au SAT verbal
Score moyen observé au SAT mathématique
Score moyen observé global au SAT global.
Les données correspondantes se trouvent dans le classeur Statistica SATdata.stw du serveur des salles de TD.
1) Etudier la corrélation entre la dépense moyenne par élève et le score moyen observé au SAT. La corrélation est-elle significative ? Interpréter le signe du coefficient de corrélation.
En effectuant une régression linéaire du score sur la dépense moyenne, retrouver le résultat indiqué dans la source :
"every $1,000 increase in spending per student per year is associated with a decline of nearly 21 points in the average statewide SAT score, an estimate that easily reaches conventional levels of statistical significance (p < .01)."
Représenter le nuage de points et la droite de régression.
2) Etudier la corrélation entre les variables "Pourcentage Inscrits au SAT" et "Score global au SAT". Représenter le nuage de points correspondant. Que peut-on en conclure ?
3) Etudier la régression linéaire multiple de la variable "Score global au SAT" sur les deux variables "Pourcentage Inscrits au SAT" et "Dépense par élève". Analyser les résultats obtenus. Compléter cette étude par le calcul et l'interprétation des coefficients de corrélation partiels.
Retrouver ainsi la conclusion :
"With a robust R2 and slope coefficients that are both highly statistically significant (p < .01), it is now clear that while the bulk of variation in statewide SAT scores is attributable to the percentage of students taking the exam, increased spending on public education is in fact associated with better academic performance."
PAGE
PAGE 71
FILENAME PSY73B-2013-TD4.doc FGC 2013-2014