Td corrigé 2 Analyse en composantes principales ou ACP pdf

2 Analyse en composantes principales ou ACP

1.1.2 Les objets manipulés par Statistica ..... Les coefficients des variables (c'est- à-dire la matrice permettant de passer des ...... deux classes distinctes sont disjointes, ou vérifient une relation d'inclusion (l'une d'elles est incluse dans l' autre) .... une relation d'ordre sur les individus, et ne présente qu'un intérêt fort limité.




part of the document







Analyse multidimensionnelle des données






Présentation de Statistica
. Statistica : l'interface utilisateur
L'écran de travail
Statistica 6.1 est un logiciel dédié aux traitements statistiques. C'est également la "brique" de base des logiciels proposés par Statsoft, et ses possibilités d'interaction avec d'autres logiciels (tableurs, systèmes de gestion de bases de données, traitements de textes, ...) sont nombreuses. En revanche, l'interface utilisateur pourra sembler un peu déconcertante au premier abord.


Les objets manipulés par Statistica

La feuille de données est organisée en variables et observations. Les colonnes sont les variables. Chaque ligne représente un individu statistique, appelé observation.

Les feuilles de données peuvent être enregistrées comme fichiers autonomes (fichiers *.sta). Elles contiennent les données d'entrée sur lesquelles s'effectuent les traitements statistiques. Les résultats de ces traitements s'affichent dans un document de sortie. Plusieurs possibilités sont offertes.

Fenêtre de rapport : C'est la méthode traditionnelle pour gérer les résultats produits par le logiciel. Un rapport se comporte plus ou moins comme un document produit par un traitement de textes. On peut insérer des commentaires, modifier la mise en forme, spécifier la mise en page, la numérotation des pages, l'en-tête et le pied de page en vue de l'impression. Les rapports peuvent être enregistrés comme fichiers autonomes (fichiers *.str).

Les résultats de sortie peuvent également être dirigés vers des fenêtres individuelles. Les résultats numériques sont alors affichés dans des fenêtres de données. Les graphiques sont affichés dans des fenêtres de graphiques (fichiers *.stg).


Les classeurs : les données d'entrée et de sortie peuvent également être stockées comme onglets dans un classeur. Un classeur est un "container" accueillant d'autres objets, organisés sous forme hiérarchique. Ils correspondent aux fichiers de type *.stw.


Traitements statistiques
Statistica est organisé en modules, accessibles à partir du menu Statistiques. Chaque module contient un groupe de procédures statistiques reliées entre elles. Par exemple, le module "Statistiques élémentaires" se présente comme suit :



Gérer les sorties
Modifier le comportement de Statistica
Le comportement de Statistica peut être modifié en intervenant dans la fenêtre de dialogue affichée par le menu Outils - Options.
Par exemple, nous souhaitons :
- que Statistica n'ouvre plus systématiquement la dernière feuille de données utilisée lors du chargement du logiciel ;
- que Statistica nous propose par défaut le volume U: pour enregistrer nos documents, au lieu du répertoire "Mes Documents".

Exécutez le menu Outils - Options. Sous l'onglet Généralités, activez le bouton radio "Créer une nouvelle feuille de données".
Désactivez la boîte à cocher "mémoriser les répertoires pour l'ouverture ou la sauvegarde des fichiers". Complétez la zone d'édition "Répertoire par défaut" en indiquant U:\, puis réactivez la boîte à cocher (N.B. Bien que l'option soit en apparence désactivée, Statistica proposera par défaut le répertoire U:\ pour l'enregistrement de nouveaux documents.

Gérer les sorties
Lorsqu'on utilise Statistica sans se préoccuper des options de sortie des résultats, on se retrouve vite à la tête d'une quantité de fenêtres (classeurs, feuilles de données de résultats, fenêtres de graphiques...). Pour réaliser un travail que l'on souhaite conserver et reprendre au cours de plusieurs séances de travail, il paraît indispensable d'organiser correctement son espace de travail et ses sauvegardes.

Enregistrer données et résultats dans un seul classeur
Cette méthode consiste à enregistrer les données, les résultats de traitements, et les commentaires éventuels comme objets d'un même classeur. Ainsi, un unique fichier du disque rassemble l'ensemble de notre travail sur un cas donné.

Ce comportement correspond aux réglages suivants dans le menu Outils - Options - Onglet Gestionnaire de Sorties :



Remarque : Le réglage ne sera actif que si la feuille de données se trouve effectivement dans un classeur. Or, ce ne sera pas le cas si la feuille de données a été ouverte à partir d'un fichier *.sta, ou importée à partir d'une feuille Excel. Dans ce cas, vous devez insérer la feuille de données dans le classeur comme il a été indiqué au paragraphe précédent.
Indiquer quelle est la feuille de données active
Lors des premières manipulations avec Statistica, nous n'avons pas eu besoin de nous préoccuper de la notion de "feuille de données active", les choix par défaut faits par Statistica nous convenant parfaitement. Cependant, cette notion permet de résoudre plusieurs problèmes :
- Ouvrir plusieurs fichiers .sta et effectuer un travail sur l'un d'eux (pas nécessairement le dernier ouvert)
- Utiliser une feuille de résultats comme feuille de données pour des traitements ultérieurs.
- Lorsque l'on travaille avec une feuille de données insérée dans un classeur, il arrive couramment que Statistica ne retrouve pas la feuille à partir de laquelle les traitements doivent être effectués. Mais on peut éviter ce comportement en spécifiant la propriété "feuille de données active" pour l'objet du classeur qui contient nos données.
Pour spécifier comme feuille de données active une feuille d'un classeur :
- Cliquez avec le bouton droit de la souris sur l'icône de la feuille de données dans le volet gauche du classeur.
- Utilisez l'item Feuille de données active du menu local.
On peut également utiliser le menu Données - Feuille de données active.
Remarquez que le volet gauche d'un classeur indique si une feuille insérée dans le classeur est active ou non : l'icône d'un feuille active est encadrée en rouge :


Enregistrer les données et l'ensemble des traitements réalisés dans un même classeur

Ouvrez un fichier de données (un fichier d'extension .sta) et réalisez un ou plusieurs traitements relatifs à ces données (par exemple, des statistiques descriptives et un graphique). Si vous avez gardé les options par défaut de Statistica, les résultats de tous ces traitements se trouvent dans un classeur.

Pour enregistrer données, traitements et rapport dans un seul classeur :
Affichez la fenêtre du classeur contenant les résultats.
Cliquez avec le bouton droit de la souris dans le volet gauche de la fenêtre du classeur.

Sélectionnez l'item Insérer..., puis l'option "Toutes les fenêtres" :


N'oubliez pas, ensuite, de spécifier la feuille contenant les données de base comme feuille active du classeur.

Manipuler les objets contenus dans un classeur
Copier - coller entre classeurs, entre un classeur et un objet Statistica
Pour déplacer un objet d'un classeur à un autre, il suffit de déplacer son icône depuis le volet gauche du premier classeur dans le volet gauche du second. On peut également utiliser les menus locaux Copier et Coller obtenus à l'aide d'un clic droit dans le volet gauche de chaque classeur.

Le menu local "Insérer" du volet gauche d'un classeur permet également d'insérer dans ce classeur un document contenu dans une fenêtre indépendante. Il suffit de choisir les options : Document Statistica - Créer à partir d'une fenêtre.

L'opération faite par Statistica est soit une copie (l'original de l'objet est conservé) soit un déplacement (l'original de l'objet n'est pas conservé) selon le paramétrage choisi dans le menu Outils - Options - Onglet Classeurs - Item "En cas d'ajout d'un document dans le classeur".

Supprimer un objet d'un classeur
Il est également possible de supprimer un objet d'un classeur, à l'aide d'un clic droit et de l'item de menu Supprimer. Cela permet notamment de ne garder, pour un traitement donné, que le résultat le plus abouti. Attention cependant : lorsque l'on supprime un objet qui n'est pas une feuille de la hiérarchie, on supprime en même temps tous les objets qui en dépendent.

Analyse en composantes principales ou ACP
Introduction
On a observé p variables sur n individus. On dit qu'il s'agit d'un protocole multivarié.
On cherche à remplacer ces p variables par q nouvelles variables résumant au mieux le protocole, avec q d" p et si possible q=2.
L'une des solutions à ce problème est l'ACP, méthode qui a l'avantage de résumer un ensemble de variables corrélées en un nombre réduit de facteurs non corrélés.

Analyse en composantes principales avec Statistica

Source de l'exemple : Claude FLAMENT, Laurent MILLAND, Un effet Guttman en ACP, Mathématiques & Sciences humaines (43e année, n° 171, 2005, p. 25-49)

Cet exemple a trait à la représentation sociale de l’homosexualité. Le questionnaire, composé d’une liste de 31 traits plus ou moins sexués, a été administré à 70 hommes homosexuels et à 70 hommes hétérosexuels [Rallier, Ricou, 2000]. Tous les sujets devaient, dans un premier temps, se décrire à partir de cette liste de traits, en se positionnant à chaque fois sur une échelle allant de 1 (= négatif) à 7 (= positif). Après avoir réalisé cette auto-description, les sujets devaient répondre à ce même questionnaire « comme le feraient les X en général », la cible « X » pouvant être : les hommes, les femmes, ou les homosexuels. Nous disposons ainsi de 8 profils moyens, qui se définissent à partir de la combinaison entre les caractéristiques des répondants et les consignes données pour remplir les questionnaires. Nous travaillons ici sur un extrait des données complètes (15 traits), extrait qui respecte scrupuleusement le type de résultat obtenu sur l'ensemble des 31 traits de l'étude.
Pour faciliter le repérage des consignes, nous avons fait le choix de coder les 8 profils en repérant en premier les répondants, puis le type de consigne parmi les 4
possibles :
Ho : Soi = sujets Homosexuels répondant à la consigne d’auto-description Soi ;
Hé : Soi = sujets Hétérosexuels répondant à la consigne d’autodescription Soi ;
Ho : H = sujets Homosexuels répondant comme le feraient les Hommes ;
Hé : H = sujets Hétérosexuels répondant comme le feraient les Hommes;
Ho : F = sujets Homosexuels répondant comme le feraient les Femmes ;
Hé : F = sujets Hétérosexuels répondant comme le feraient les Femmes ;
Ho : Ho = sujets Homosexuels répondant comme le feraient les Homosexuels ;
Hé: Ho = sujets Hétérosexuels répondant comme le feraient les Homosexuels.
Nous partons ici d’un tableau de données comprenant, pour chacune des 8 conditions expérimentales, les moyennes de chaque trait calculées sur les 70 réponses obtenues dans chacune des conditions expérimentales. On retrouve, dans le Tableau ci-dessous, le rang (solidarisation des variables) de chacun des 15 traits dans les 8 profils

He:HHo:HHe:SoiHo:SoiHo:HoHo:FHe:HoHe:FEst meneur56121315131413Aime competition33131411141314FEMININ1515151513241A confiance en soi4861114121212Devoue1112107101187MASCULIN1111212151515Bienveillant1010997976Attentif aux besoins des autres12131149855Energique84586101111Ambitieux67310871010Sensible14141421112Agreable99753663Affectueux1311814524A du caractere25465498Defend ses opinions72232339

Pour effectuer l'ACP, nous utilisons le menu Statistiques - Techniques exploratoires multivariées - ACP "à la française".
 EMBED PBrush 
La fenêtre de dialogue permet de spécifier les variables qui participeront à l'analyse. Elle permet également d'indiquer les différentes options choisies pour le traitement.
Utilisez l'onglet "Avancé" de cette fenêtre.
- Comment seront traitées les valeurs manquantes ? Nous voyons que Statistica propose soit de neutraliser la ligne correspondante, soit de remplacer la valeur manquante par la moyenne observée sur la variable.
- L'analyse sera-t-elle basée sur les covariances ou sur les corrélations ?
- Utilise-t-on les variances et covariances non corrigées (SC/N) ou les variances et covariances corrigées (SC/(N-1)). Dans le cas d'une ACP normée, les deux méthodes fournissent des résultats presque identiques : seuls les scores des individus sont légèrement modifiés. En fait, l'ACP est une méthode descriptive et non une méthode inférentielle. Elle est effectuée dans un but exploratoire : on étudie les données pour elles-mêmes, et non en vue d'une généralisation à une population. C'est pourquoi l'utilisation des variances non corrigées est généralement justifiée.
Nous ferons ici une analyse basée sur les corrélations, en utilisant les variances et covariances corrigées (SC/(N-1)), de manière à retrouver les résultats publiés. Cliquez ensuite sur le bouton OK.

N.B. Ne fermez pas l'analyse en cours pendant la suite des manipulations. Ainsi, vous n'aurez pas à indiquer de nouveau les options ci-dessus, vos résultats seront cohérents entre eux et se rassembleront dans un même classeur.
Statistiques descriptives - Matrice des corrélations
Ces résultats peuvent être obtenus à l'aide de l'onglet "Descriptives".

 EMBED STATISTICA.Spreadsheet \s 

Choix des valeurs propres
Affichez d'abord le tableau des valeurs propres et le diagramme correspondant.
Pour cela, cliquez sur les boutons "Valeurs propres" et "Tracé des valeurs propres" de l'onglet "Base".
 EMBED STATISTICA.Spreadsheet \s 

 EMBED STATISTICA.Graph \s 
Dans notre cas, on peut choisir de retenir 2 composantes principales. Dans les manipulations qui suivent, on indiquera donc 2 dans la zone d'édition "nombre de facteurs".
Pour les résultats relatifs aux individus et aux variables, on utilisera de préférence les onglets correspondants.
Résultats relatifs aux individus
On pourra obtenir successivement les scores des individus, leurs contributions à la formation des composantes principales et leurs qualités de représentation en utilisant les boutons "Coordonnées des individus", "Contributions des individus", "Cosinus²".




 EMBED STATISTICA.Spreadsheet \s  EMBED STATISTICA.Spreadsheet \s 

 EMBED STATISTICA.Spreadsheet \s 


Remarquez que les résultats ainsi obtenus sont présentés dans des feuilles de résultats sur lesquelles il est possible d'effectuer les mêmes transformations (tris, ajout ou suppression de colonne, etc) que sur les feuilles contenant les données de base. Ainsi, une colonne supplémentaire a été ajouté au tableau des cosinus-carrés pour indiquer la qualité de représentation des individus dans le premier plan factoriel.
On peut ensuite obtenir les projections du nuage des individus selon les premiers axes factoriels à l'aide du bouton "Projection de individus, 2D". Lorsque les individus ne sont pas anonymes (ce qui est le cas ici), il est utile d'étiqueter chaque point. Plusieurs méthodes sont possibles :
- Utiliser les identifiants d'individus figurant dans la première colonne du tableau de données
- Utiliser les numéros des observations
- Utiliser les étiquettes indiquées dans la variable "illustrative" : ces étiquettes peuvent être des identifiants des individus, mais peuvent également représenter un groupe d'appartenance, etc.
 EMBED STATISTICA.Graph \s 
Dans certains cas, il pourra être utile de modifier les échelles sur les axes de manière à obtenir une représentation en axes orthonormés. L'importance de la part d'inertie expliquée par le premier axe principal apparaît ainsi plus clairement.
Résultats relatifs aux variables
Activons ensuite l'onglet "Variables".

On obtient les saturations des variables en cliquant sur le bouton "Coordonnées des variables" ou le bouton "Corrélation facteurs et variables" : dans le cas d'une ACP normée, ces deux traitements fournissent le même résultat.

On obtient leurs contributions à la formation des composantes principales en utilisant le bouton "Contributions des variables".

Les qualités de représentation sont calculées, de façon cumulative (qualité de la projection selon F1, puis selon le plan (F1,F2), puis selon l'espace (F1,F2,F3) en utilisant le bouton "Communautés (Cosinus²)".


Saturations des variables
 EMBED STATISTICA.Spreadsheet \s 
Contributions des variables
 EMBED STATISTICA.Spreadsheet \s 
Qualités des représentations des variables
 EMBED STATISTICA.Spreadsheet \s 
Représentation des variables
Le bouton "Projection des variables, 2D" permet d'obtenir les diagrammes représentant les projections des variables selon les plans définis par deux axes principaux.
 EMBED STATISTICA.Graph \s 
Coefficients des variables
Les coefficients des variables (c'est-à-dire la matrice permettant de passer des variables centrées réduites aux composantes principales et vice-versa) sont obtenus à l'aide du bouton "Vecteurs propres" de l'onglet "Variables".
 EMBED STATISTICA.Spreadsheet \s 
Interprétation des résultats de l'ACP
Examen des valeurs propres. Choix du nombre d'axes
On examine les résultats relatifs aux valeurs propres.
Plusieurs critères peuvent nous guider :
- "méthode du coude" on examine la courbe de décroissance des valeurs propres pour déterminer les points où la pente diminue de façon brutale ; seuls les axes qui précèdent ce changement de pente seront retenus.
- si l'analyse porte sur p variables et n > p individus, la variation totale est répartie sur p axes. On peut alors choisir de conserver les axes dont la contribution relative est supérieure à  EMBED Equation.3 . Dans le cas d'une ACP normée, cela revient à conserver les axes correspondant aux valeurs propres supérieures à 1.
Sur le cas étudié, les différentes méthodes conduisent à ne garder que les deux premiers axes.
Interpréter les résultats relatifs aux individus
Très souvent, les individus pris en compte pour une ACP sont en nombre très élevé et sont considérés comme anonymes. Les éléments qui suivent concernent évidemment les cas où ils ne le sont pas.
Contributions des individus à la formation d'un axe
On relève, pour chaque axe, quels sont les individus qui ont la plus forte contribution à la formation de l'axe. Par exemple, on retient (pour l'analyse) les individus dont la contribution relative est supérieure à  EMBED Equation.3 . On note également si cette contribution intervient dans la partie positive ou dans la partie négative de l'axe.

On peut ainsi caractériser l'axe en termes d'opposition entre individus. Il peut également être intéressant d'étudier comment l'axe classe les individus.

Si un individu a une contribution très forte à la formation d'un axe, on peut choisir de recommencer l'analyse en retirant cet individu, puis de l'introduire en tant qu'individu supplémentaire.

Ainsi, pour le premier axe, on relève les traits qui ont contribué pour plus de 6,67% à sa formation et le signe de la coordonnée de chacun de ces traits. On obtient :

-+MASCULIN (22,09)
Aime competition (11,24)
Est meneur (9,18)Sensible (22,34)
Affectueux (9,89)
FEMININ (7,18)
On voit que cet axe oppose le trait "masculin", et des traits qui sont souvent associés à ce sexe (meneur, aime compétition, a confiance en soi), sur la partie négative de l'axe, à des traits tels que "sensible", "affectueux", "attentif", et "féminin" sur la partie positive.

Pour le deuxième axe, la même démarche conduit au tableau suivant :
-+Defend ses opinions (27,41)
A du caractere (10,62)FEMININ (30,24)
Est meneur (9,35)
Cet axe oppose deux traits pratiquement indépendants du premier axe (partie négative de l'axe) au trait "féminin" (partie positive de l'axe).


Projections des individus dans un plan factoriel
Même s'il s'agit du plan (F1, F2), les proximités entre individus doivent être interprétées avec prudence : deux points proches l'un de l'autre sur le graphique peuvent correspondrent à des individus éloignés l'un de l'autre. Pour interpréter ces proximités, il est nécessaire de tenir compte des qualités de représentation des individus.
Se méfier également des individus proches de l'origine : mal représentés, ou proches de la moyenne, ils ont, de toutes façons, peu contribué à la formation des axes étudiés.
Interpréter les résultats relatifs aux variables
Contributions des variables
L'examen du tableau des contributions des variables peut permettre d'identifier des variables qui ont un rôle dominant dans la formation d'un axe factoriel. Comme précédemment, on retient (par exemple) les variables dont la contribution relative est supérieure à  EMBED Equation.3 . On note également si cette contribution intervient dans la partie positive ou dans la partie négative de l'axe.

Ainsi, pour le premier axe, en fixant la "limite" à 12,5%, on obtient :

-+He:Ho (0,1879)
He:F (0,1838)
Ho:F (0,1458)He:H (0,1581)
Ainsi, cet axe oppose les profils féminins et homosexuels vus par les hétérosexuels (partie négative de l'axe) au profil masculin vu par les hétérosexuels (partie positive de l'axe).

Remarque importante. L'analyse des individus (traits) avait associé la partie négative du premier axe aux traits masculins. L'analyse des variables semble a priori conduire à un résultat opposé. Mais la contradiction n'est qu'apparente : ici, le protocole des rangs accorde le rang le moins élevé au trait le plus caractéristique du profil. La variable He:H par exemple, est fortement corrélée positivement avec le facteur 1. Le trait "masculin" par exemple obtient un score faible aussi bien sur cette variable (rang 1) que sur le premier facteur (-3,92, minimum des coordonnées de points).

Pour le second axe factoriel, on obtient :

-+He:Soi (0,3168)
Ho:Ho (0,2482)
Ho:Soi (0,1808)
Ho:H (0,1502)
On remarque que les quatre variables retenues sont celles qui ne figuraient pas dans le tableau précédent. Ces quatre variables sont corrélées positivement avec le deuxième axe.

Analyse des projections des variables sur les plans factoriels
Les diagrammes représentant les projections des variables sur les axes factoriels nous fournissent plusieurs types d'informations :

- La longueur du vecteur représentant la variable est liée à la qualité de la représentation de la variable par sa projection dans ce plan factoriel

- Pour les variables bien représentées, l'angle entre deux variables est lié au coefficient de corrélation entre ces variables (si la représentation est exacte, le coefficient de corrélation est le cosinus de cet angle). Ceci permet de dégager des "groupes de variables" de significations voisines, des groupes de variables qui "s'opposent", des groupes de variables relativement indépendantes entre eux.

- De même, pour les variables bien représentées, l'angle que fait la projection de la variable avec un axe factoriel est lié au coefficient de corrélation de cette variable et de l'axe factoriel.

Ainsi, dans notre exemple, toutes les variables sont bien représentées dans le premier plan factoriel. Des variables telles que Ho:Soi et Ho:Ho par exemple, sont fortement corrélées positivement entre elles, alors que Ho:Ho et Ho:H sont pratiquement non corrélées. Les variables He:Ho et He:F par exemple, sont fortement anti-corrélées (corrélées négativement) avec le premier axe.
Synthèse des résultats obtenus
On voit que les sujets hétérosexuels ont tendance à estimer que les homosexuels se décrivent comme "féminin" plutôt que "masculin". L'étude des résultats de l'ACP pourrait nous conduire à associer la description que les homosexuels se font d'eux-mêmes à "féminin". Mais, cette conclusion est contredite par les données : les homosexuels ne se voient jamais comme "féminin", mais font appel à des items identifiés ici comme des caractéristiques féminines (sensible, affectueux, etc). Le graphique suivant, dans lequel on a représenté les scores des traits "féminin", "masculin" et "sensible" en fonction des profils convenablement ordonnés, le met en évidence :


ACP avec individus et variables supplémentaires

Lorsqu'on réalise une ACP, il est possible de déclarer certains individus "inactifs" et/ou certaines variables "supplémentaires". Les données correspondantes n'interviennent plus dans le calcul de détermination des composantes principales. En revanche, on leur applique les mêmes transformations qu'aux autres données afin de les ré-introduire dans les tableaux et graphiques de résultats.

Cette méthode peut notamment être utilisée lorsque des individus ou des variables ont une influence trop importante sur les résultats d'une ACP. On recommence alors les calculs en les déclarant comme individus inactifs ou variables supplémentaires. Elle peut également être utilisée pour introduire des variables plus synthétiques, et des moyennes par groupe d'individus, comme c'est le cas dans l'exemple ci-dessous.

Avec Statistica, il est simple de déclarer une variable comme variable supplémentaire : le premier dialogue de l'ACP prévoit une zone d'édition pour cela. Pour déclarer des individus comme "inactifs", il est nécessaire de construire une variable supplémentaire, qui ne contiendra que deux modalités, et d'utiliser les zones d'édition "Variable avec individus actifs" et "Code des individus actifs".

Ouvrez le fichier Proteines-2008.stw.

Source : Exemple fourni avec le logiciel Statistica.
Cet exemple particulier est présenté par Greenacre (1984) dans le cadre d'une comparaison entre l'analyse en composantes principales (voir l'Analyse Factorielle) et l'analyse des correspondances.

Les données du fichier d'exemple Protein.sta représentent des estimations de la consommation protéique issue de 9 sources différentes, par habitant dans 25 pays (les données ont initialement été reportées par Weber, 1973, dans un polycopié publié à l'Université de Kiel, Institut für Agrarpolitik und Marktlehre, intitulé "Agrarpolitik im Spannungsfeld der Internationalen Ernährungspolitik").

Au fichier de données initial ont été ajoutées les 5 variables suivantes :
- Consommation en protéines animales (somme des variables v1 à v5)
- Consommation en protéines végétales (somme des variables v6 à v9)
- Un code du nom du pays sur 2 ou 3 lettres
- Le groupe auquel appartient le pays (4 groupes ont été définis : NW (Europe du Nord et de l'Ouest), NE (Europe de l'Est, pays du Nord), SW (Europe de l'Ouest, pays du Sud) et SE (Europe de l'Est, pays du Sud)).
- Une variable codant pour les individus actifs (1) et inactifs (0).

Quatre individus ont été ajoutés, correspondant aux moyennes observées dans les 4 groupes de pays définis précédemment

Extrait des données :
 EMBED STATISTICA.Spreadsheet \s 

Toutes les variables s'expriment ici avec la même unité (g.hab/jour). Pour réaliser une ACP, deux possibilités s'offrent à nous :
- Faire une ACP sur les valeurs non réduites. Ainsi, une information telle que "l'apport protéique des viandes, porc et volailles est, dans tous les cas, supérieur à celui des fruits et légumes" est prise en compte dans l'étude.
- Faire une ACP sur les valeurs réduites (ACP calculée à partir du tableau des corrélations). Dans ce cas, l'étude "gomme" les inégalités des apports protéiques des différentes sources.
Réalisons une ACP sur les corrélations en spécifiant individus actifs et variables supplémentaires comme suit :

 EMBED PBrush 

Affichez les tableaux des covariances et des corrélations. On voit déjà apparaître une opposition entre protéines d'origine animale et protéines d'origine végétale.

Combien de valeurs propres faut-il ici retenir ? Seules 3 valeurs propres sont supérieures à 1, mais la règle du coude conduit à retenir soit 2, soit 4 axes factoriels. En fait, il faut conserver 4 axes pour mettre en évidence certaines spécificités des pays d'Europe Centrale (axe 3) ou de la France (axe 4).

 EMBED STATISTICA.Graph \s 

Exercice : Calculez les résultats de l'ACP pour les 4 premiers axes à l'aide de Statistica, puis interprétez les résultats.
ACP avec rotation
Par construction, les composantes principales sont des abstractions mathématiques et ne possèdent pas nécessairement de signification intuitive. Après avoir réalisé l'ACP, il peut parfois être intéressant de définir d'autres variables en effectuant une combinaison linéaire des composantes principales retenues, à l'aide d'une "rotation". L'objectif est généralement d'augmenter les saturations, c'est-à-dire les corrélations entre ces nouveaux "facteurs" et certaines variables de départ. Les nouveaux "facteurs" ainsi obtenus perdent les propriétés des facteurs principaux. Par exemple, le premier d'entre eux ne correspond plus à la direction de plus grande dispersion du nuage des individus. En revanche, la part de variance expliquée par les facteurs retenus reste identique. Il existe différents critères (varimax, quartimax, equamax, etc) permettant d'obtenir une rotation conduisant à des saturations proches de 1 ou -1, ou au contraire proches de 0.

Cette possibilité n'est pas disponible dans la méthode "ACP à la française" de Statistica. En revanche, on peut l'utiliser en utilisant le module "Analyse factorielle" convenablement paramétré.

Une ACP fournit-elle toujours des informations interprétables ?
Tout tableau de données peut être soumis à une ACP, et les méthodes d'analyse qui ont été développées permettent de "trouver des résultats". Mais ces résultats correspondent-ils à une réalité plus ou moins cachée ou ne constituent-ils qu'un artefact de la méthode ?
Pour étudier cet aspect, réalisons une ACP sur des données ... où il n'y a rien à dire (il s'agit de données produites à l'aide d'un générateur de nombres aléatoires).

Ouvrez le fichier aleatoire-20sujets.stw et réalisez une ACP normée sur ces données. La représentation graphique des valeurs propres nous indique déjà l'absence d'intérêt des données traitées :
 EMBED STATISTICA.Graph \s 

Analyse Factorielle des Correspondances
Introduction
L'analyse factorielle des correspondances (AFC), ou analyse des correspondances simples, est une méthode exploratoire d'analyse des tableaux de contingence. Elle a été développée essentiellement par J.-P. Benzecri durant la période 1970-1990.

Soient deux variables nominales X et Y, comportant respectivement p et q modalités. On a observé les valeurs de ces variables sur une population et on dispose d'un tableau de contingence à p lignes et q colonnes donnant les effectifs conjoints c'est-à-dire les effectifs observés pour chaque combinaison d'une modalité i de X et d'une modalité j de Y.
Les valeurs de ce tableau seront notées  EMBED Equation.3 , l'effectif total sera noté N.

L'ACP vise à analyser ce tableau en apportant des réponses à des questions telles que :
- Y a-t-il des lignes du tableau (modalités de X) qui se "ressemblent", c'est-à-dire telles que les distributions des modalités de Y soient analogues ?
- Y a-t-il des lignes du tableau (modalités de X) qui s'opposent, c'est-à-dire telles que les distributions des modalités de Y soient très différentes ?
- Mêmes questions pour les colonnes du tableau.
- Y a-t-il des associations modalité de X - modalité de Y qui s'attirent (effectif conjoint particulièrement élevé) ou qui se repoussent (effectif conjoint particulièrement faible) ?
La méthode se fixe également comme but de construire des représentations graphiques mettant en évidence ces propriétés des données.
Analyse factorielle des correspondances avec Statistica
Traitement des données avec Statistica

Source : Site Eurostat de l'Union Européenne.
http://epp.eurostat.ec.europa.eu/portal/

Ouvrez le classeur Regions-2001.stw
La feuille "Regions-Milliers-2001" rapporte des données relatives à la structure de la population : elle indique, pour chacune des 22 régions françaises (en lignes) le nombre d'habitants (en milliers) par âge (en colonnes) :
HF00 signifie Hommes et Femmes de 0 à 4 ans,
HF05 signifie Hommes et Femmes de 5 à 9 ans, ...
HF80 signifie Hommes et Femmes de plus de 80 ans

 EMBED STATISTICA.Spreadsheet \s 

Pour effectuer l'AFC, nous utilisons le menu Statistiques - Techniques exploratoires multivariées - Analyse des correspondances.


La fenêtre de dialogue permet d'indiquer la manière dont se présentent nos données. La situation la plus classique est celle d'un tableau de contingence : les modalités lignes sont indiquées dans une variable spécifiques, les modalités colonnes sont les autres variables du tableau, et la feuille de données contient les effectifs nij.

On indique également les variables qui participeront à l'analyse (ici toutes les variables). Notez que les zéros éventuels sont obligatoires, car une cellule laissée vide est interprétée comme une valeur manquante, et c'est alors l'ensemble de la ligne qui est éliminé de l'analyse.

N.B. Ne fermez pas l'analyse en cours pendant la suite des manipulations. Ainsi, vous n'aurez pas à indiquer de nouveau les options ci-dessus, vos résultats seront cohérents entre eux et se rassembleront dans un même classeur.
Statistiques descriptives
Les principaux résultats de statistiques descriptives pourront être obtenus à partir de l'onglet "Etude".
On peut ainsi obtenir les fréquences, les fréquences lignes, les fréquences colonnes et les profils moyens.



Par exemple, le tableau des fréquences et les profils ligne et colonne moyens sont :

 EMBED STATISTICA.Spreadsheet \s 
Remarques :

1) Dans cet exemple, le niveau de significativité du khi-2 n'est que de 17%. Autrement dit, la position dans l'entreprise et le comportement vis-à-vis du tabac sont, dans une large mesure, indépendantes. Mais le but de l'AFC est de mettre en évidence les "ressemblances" ou les "dissemblances" entre lignes ou entre colonnes, et la méthode fonctionne même si les différences sont de faible amplitude.

2) Statistica ne permet pas d'obtenir directement le tableau des taux de liaison, qui est pourtant un outil exploratoire intéressant. Mais on pourra utiliser les tableaux "Observés moins théoriques" et "Effectifs théoriques". On peut même recopier ces deux tableaux dans une feuille Excel et diviser chaque cellule du premier par la cellule correspondante du second pour obtenir le tableau des taux de liaison :

HF00HF05HF10HF15HF20HF25HF30HF35HF40HF45HF50HF55HF60HF65HF70HF75HF80ILEF0,12 0,05 -0,02 -0,04 0,09 0,18 0,14 0,08 0,02 0,02 0,05 0,01 -0,15 -0,23 -0,27 -0,28 -0,21 CHAM0,00 0,02 0,06 0,05 0,01 0,00 -0,02 -0,01 0,00 0,01 -0,00 -0,07 -0,01 -0,02 -0,02 -0,02 -0,04 PICA0,06 0,10 0,14 0,07 -0,03 -0,01 0,01 0,01 0,02 0,04 -0,02 -0,10 -0,06 -0,09 -0,08 -0,12 -0,18 HNOR0,05 0,07 0,11 0,09 -0,01 -0,01 -0,02 -0,00 0,04 0,02 -0,01 -0,08 -0,06 -0,07 -0,10 -0,10 -0,10 CENT-0,04 -0,02 -0,01 -0,03 -0,09 -0,05 -0,05 -0,03 -0,01 0,01 0,01 -0,01 0,05 0,07 0,08 0,11 0,20 BNOR0,00 0,01 0,05 0,05 -0,04 -0,07 -0,07 -0,04 0,00 -0,02 -0,05 -0,08 0,09 0,10 0,10 0,07 0,01 BOUR-0,09 -0,06 -0,03 -0,03 -0,09 -0,09 -0,07 -0,05 -0,01 0,02 0,01 0,02 0,09 0,15 0,16 0,18 0,23 NORD0,11 0,12 0,17 0,16 0,12 0,02 -0,03 -0,02 -0,01 -0,03 -0,07 -0,18 -0,10 -0,08 -0,08 -0,11 -0,28 LORR-0,03 0,01 0,04 0,04 0,02 -0,02 -0,01 0,02 0,03 0,02 -0,04 -0,02 0,04 0,04 0,01 -0,08 -0,17 ALSA0,03 0,04 0,01 -0,02 0,01 0,07 0,10 0,07 0,06 0,01 -0,09 0,04 -0,02 -0,06 -0,11 -0,14 -0,24 FCOM-0,00 -0,00 0,04 0,06 -0,03 -0,02 -0,01 -0,03 0,00 -0,01 0,02 -0,00 0,02 0,02 -0,01 -0,03 -0,04 PAYS0,02 0,01 0,03 0,09 0,03 -0,04 -0,05 -0,03 -0,01 -0,01 -0,05 -0,07 0,02 0,02 0,03 0,03 0,02 BRET-0,04 -0,04 -0,02 0,02 0,00 -0,06 -0,08 -0,03 -0,01 -0,02 -0,03 -0,05 0,11 0,12 0,15 0,14 0,06 POIT-0,14 -0,12 -0,07 -0,04 -0,08 -0,12 -0,09 -0,06 0,01 0,01 -0,01 0,04 0,14 0,19 0,23 0,25 0,31 AQUI-0,13 -0,11 -0,09 -0,06 -0,07 -0,07 -0,06 -0,03 -0,00 0,02 0,02 0,04 0,10 0,14 0,19 0,22 0,24 MIDI-0,12 -0,11 -0,12 -0,09 -0,03 -0,07 -0,03 -0,01 -0,01 -0,01 0,01 0,04 0,10 0,14 0,19 0,22 0,27 LIMO-0,26 -0,22 -0,18 -0,14 -0,11 -0,12 -0,13 -0,08 -0,02 0,01 0,03 0,06 0,21 0,33 0,42 0,44 0,59 RHON0,04 0,04 0,02 0,02 0,00 0,01 0,03 0,01 -0,01 -0,02 0,02 0,04 -0,04 -0,05 -0,06 -0,08 -0,08 AUVE-0,17 -0,15 -0,12 -0,06 -0,05 -0,09 -0,07 -0,06 -0,00 0,04 0,06 0,08 0,13 0,18 0,23 0,25 0,22 LANG-0,09 -0,07 -0,06 -0,05 -0,04 -0,09 -0,08 -0,05 -0,05 -0,02 0,00 0,07 0,09 0,18 0,20 0,24 0,22 PROV-0,06 -0,03 -0,05 -0,07 -0,09 -0,10 -0,04 -0,03 -0,03 -0,03 0,02 0,13 0,08 0,11 0,13 0,17 0,21 CORS-0,12 -0,08 -0,06 -0,09 -0,21 -0,09 -0,00 -0,01 0,01 0,01 0,02 0,24 0,15 0,16 0,11 0,12 0,17
Choix des valeurs propres
C'est ensuite l'onglet "Avancé" qui nous permettra d'afficher les valeurs propres, et donc de choisir le nombre d'axes à garder.


 EMBED STATISTICA.Spreadsheet \s 

 EMBED STATISTICA.Graph \s 

Résultats relatifs aux individus-lignes et aux individus-colonnes.
Pour les résultats qui suivent, on indique le nombre d'axes factoriels à conserver sous l'onglet "Base" ou sous l'onglet "Options". Ce dernier permet également de choisir plusieurs types d'échelles pour représenter lignes et colonnes. Le type de représentation le plus classique, qui fait jouer des rôles symétriques aux lignes et aux colonnes, correspond à la première option.



On retourne ensuite sous l'onglet "Avancé" pour afficher les coordonnées des individus-lignes et des individus-colonnes. On notera que Statistica produit deux tableaux de résultats, et on passera de l'un à l'autre à l'aide des onglets du classeur.

 EMBED STATISTICA.Spreadsheet \s 
 EMBED STATISTICA.Spreadsheet \s 
On utilise ensuite les boutons du bloc "Tracé des coordonnées" pour obtenir des représentations graphiques des résultats de l'AFC.


Les graphiques "par axe" pourront être obtenus à l'aide du bouton "Ligne & colonne, 1D". Le graphique dans un plan, superposant les résultats des lignes et des colonnes, pourra être obtenu à l'aide du bouton "2D" de la même ligne. En revanche, il n'est pas évident d'éliminer certaines étiquettes pour améliorer la lisibilité du graphique. La seule méthode paraît être de faire un clic droit sur une étiquette, de sélectionner l'item de menu "Propriétés..." puis d'éditer manuellement le tableau des étiquettes qui s'affiche.

 EMBED STATISTICA.Graph \s 
Interprétation des résultats de l'AFC

On sait que la distance du khi-2 est sensible à l'importance de l'effectif observé. Sans surprise, même en exprimant les effectifs en milliers, nous obtenons ici un khi-2 de 515,83. En revanche, le coefficient Phi-2 est assez faible : 0,0088.

De même, on constate que les taux de liaison restent modérés, compris entre -0,28 et +0,59. Autrement dit le déficit d'une classe d'âge est au plus de 28% de l'effectif théorique que l'on obtiendrait si la structure par âge de la population française se retrouvait à l'identique dans toutes les régions, et l'excès d'une classe d'âge est d'au plus 59% de cet effectif théorique.

On sait que, dans une AFC, les valeurs propres sont toutes inférieures à 1, et que leur somme est égale au coefficient Phi-2. Ici, la décroissance des valeurs propres est très rapide, puisque la première représente plus de 80% de l'inertie. La deuxième, bien que très inférieure à la première, est supérieure à la moyenne 0,0088/16 = 0,00055. Nous étudierons donc les deux premiers axes factoriels.

Interprétation du premier axe

Les individus lignes dont la contribution à l'inertie du premier axe est supérieure à la moyenne sont :

-+ILEF (39%)
NORD (5,7%)LIMO (7,7%)
AQUI (6,7%)
PROV (6,7%)
MIDI (6%)
POIT (5,8%)
LANG (5,5%)
On voit que cet axe oppose des régions telles que l'Ile de France et le Nord Pas de Calais à un ensemble de régions "du sud" : Limousin, Aquitaine, Provence, etc. L'Ile de France représente à elle seule 39% de l'inertie de cet axe, et on peut s'étonner que cette région, malgré son poids démographique, soit représentée par un point aussi éloigné de l'origine des axes.

Pour les individus colonnes, les résultats sont  :

-+HF25 (8%)
HF00 (7%)HF80 (19%)
HF75 (16%)
HF70 (16%)
HF65 (13%)
HF60 (6%)
Clairement, le premier axe oppose les classes d'âge élevées (partie positive de l'axe) aux autres classes, notamment la classe 25-29 ans et la classe 0-4 ans.

La synthèse des études menées sur les individus lignes et sur les individus colonnes en découle aussitôt : le premier axe oppose des régions où la population âgée est importante à des régions plus jeunes, ou dans lesquelles apparaît un déficit en personnes âgées (Ile de France et Nord Pas de Calais, mais aussi Alsace, Picardie, Haute Normandie, etc).

Etude du second axe factoriel

Les individus lignes dont la contribution à l'inertie du premier axe est supérieure à la moyenne sont :

-+ILEF (29,4%)
NORD (36,6%)
Les individus colonnes dont la contribution à l'inertie du premier axe est supérieure à la moyenne sont :

-+HF55 (14,6%)
HF30 (8,8%)
HF25 (7%)
HF80 (7%)
HF50 (6%)HF15 (23,3%)
HF10 (20,4%)
Le tableau des individus lignes semble montrer que cet axe oppose essentiellement deux régions "jeunes" : l'Ile de France et le Nord Pas de Calais. En fait, dans la partie négative de cet axe, on retrouve à la fois des régions "jeunes", telles que l'Ile de France et des régions "âgées" telles que le Limousin, pendant que la partie positive de l'axe rassemble des régions (Nord, mais aussi Picardie, Basse Normandie, Pays de la Loire, etc) où la population des adolescents (HF10, HF15) est bien représentée.

Quelques remarques sur les qualités de représentation

On voit que les âges correspondant aux adultes actifs (HF35, HF40, HF45) sont très peu intervenus dans l'étude. Les effectifs de ces classes d'âge diffèrent peu de l'indépendance : il y a peu de différences entre les régions du point de vue de la proportion de 35-49 ans dans la population. De faible inertie et donc intervenant peu dans la formation des premiers axes, ces individus colonnes peuvent être mal représentés (qualité de représentation égale à 0,14, par exemple, pour HF45 et à 0,32 pour HF40 : il faut donc s'abstenir d'interpréter, sans élément supplémentaire, leur proximité sur le graphique).

De même, la qualité de représentation de la Franche Comté (0,39) est assez faible, car cette région est peu importante numériquement et a un profil assez proche du profil moyen. Sur le schéma, elle apparaît proche de la Champagne, ce qui ne correspond pas vraiment à la réalité.

Synthèse

L'élément dominant que l'AFC fait apparaître est l'opposition entre d'une part les régions comportant beaucoup de personnes âgées (60 ans et plus), et par voie de conséquence, un déficit d'enfants et de jeunes adultes, et d'autre part, les régions comportant beaucoup de jeunes de moins de 35/40 ans et peu de personnes âgées. Une structure secondaire distingue, parmi les régions "jeunes" celles dont la population comporte de nombreux adultes (classes HF25, HF30 particulièrement nombreuses) à celles dont la population comporte beaucoup d'enfants (HF05, HF10, HF15).

On est ainsi tenté de définir quatre groupes de régions, sans pour autant pouvoir affecter objectivement chaque région à un groupe :
- Régions à population de personnes âgées importante : Limousin, Corse, Midi-Pyrénées, Auvergne, Provence, Aquitaine, Languedoc, Poitou, Bourgogne.
- Régions "intermédaires" : Centre, Bretagne, Basse Normandie, Pays de la Loire et peut-être Lorraine, Champagne, Franche Comté
- Régions à forte population de jeunes adultes : Ile de France, Alsace et peut-être Rhône-Alpes.
- Régions à forte population de jeunes enfants : Nord Pas-de-Calais, Picardie, Haute-Normandie.
Structures possibles pour les données d'entrée


Source : Exemple fourni avec le logiciel Statistica.

Supposons que vous ayez collecté des données sur les habitudes de différents salariés d'une entreprise concernant la cigarette. Les données suivantes sont présentées dans l'ouvrage de Greenacre (1984, p. 55).

Ouvrez le classeur Smoking.stw et observez les 3 feuilles de données saisies.

Données structurées sous forme d'un tableau de contingence
Commençons, par exemple, par rendre active la feuille de données Smoking1.sta (tableau de contingence).
 EMBED STATISTICA.Spreadsheet \s 

Réalisez une AFC sur ce tableau de données.
N.B. On remarquera que le test du khi-2 sur ce tableau ne démontre pas l'existence d'une dépendance significative entre les habitudes concernant la cigarette et l'emploi occupé. L'analyse factorielle des correspondances est donc d'un intérêt très limité ici.
Données structurées sous forme de tableau d'effectifs

Statistica nous permet également de réaliser l'AFC à partir d'un tableau d'effectifs (feuille de données Smoking2.sta).

Refaites l'AFC précédente, d'abord en utilisant Smoking2.sta comme feuille de données active.
Données structurées sous forme de tableau protocole

On peut aussi réaliser l'AFC à partir d'un tableau protocole (données non recensées - feuille de données Smoking3.sta).

Refaites l'AFC précédente, d'abord en utilisant Smoking3.sta comme feuille de données active.

Ajout de lignes ou de colonnes supplémentaires : application à la comparaison de tableaux de fréquence binaire

On dispose des données suivantes relatives aux élèves scolarisés en 1972/73, sortis du système éducatif en 1973 et ayant trouvé un emploi :

HommesSans diplômeBEPCBEP/CAPBAC généralBAC techniqueDEUG/ENTDUT/BTS/SantéSUPTotalAgriculteurs150682701570929712420322025339Ingénieurs03373099170308043836254Techniciens3021697224219691399357194338110290Ouvriers Qualifiés1014337023092631418610033747283Ouvriers non qualifiés59394808717862288716960032390249Cadres supérieurs59629889212272982362318678112772Cadres Moyens21422801672649592428072301403022172Employés qualifiés54457348471943531280614982024741Employés non qualifiés48794987151434788861326066117731Total9796931958648452193795867774586616896256831

FemmesSans diplômeBEPCBEP/CAPBAC généralBAC techniqueDEUG/ENTDUT/BTS/ SantéSUPTotalAgriculteurs508912121166000007467Ingénieurs0003160030410331653Techniciens2810320320283068301887Ouvriers Qualifiés74701859401717526570285016040Ouvriers non qualifiés29997433445381882000040751Cadres supérieurs0002236595911569678811099Cadres Moyens15771806454917063875415215731399149744Employés qualifiés216161991532452161375865125633321286101859Employés non qualifiés19849732564845111898294635040596Total85879364515352644817917366132153913098271096
Source : B. Escoffier, J. Pagès, Analyses factorielles simples et multiples, 3è édition - Dunod 1998.

Ces tableaux croisent trois variables qualitatives : l'emploi, le diplôme et le sexe. Les buts de notre étude peuvent être multiples. D'une part, on peut s'intéresser à la liaison entre emploi et diplôme, indépendamment du sexe, et mettre ainsi en évidence une structure commune à ces deux tableaux. D'autre part, et de façon complémentaire, on peut s'intéresser aux écarts entre ces deux tableaux : les répartitions croisées des emplois et des diplômes sont-elles similaires selon le sexe, ou au contraire, sont-elles très différentes ?
Première analyse : les tableaux "par sexe" en éléments supplémentaires dans l'AFC de leur somme

Ouvrez le classeur Diplomes-emploi-1973.stw et observez la manière dont les données y ont été saisies. Ouvrez également le classeur Excel Diplomes-emplois-1973.xls.

On va réaliser une AFC sur le tableau "somme", en plaçant en éléments supplémentaires les tableaux relatifs aux données par sexe.

Réalisez une AFC sur les variables 1 à 8 du tableau de données Statistica :

 EMBED PBrush 

Activez ensuite l'onglet "Points supplémentaires" et cliquez sur le bouton "Ajouter des points lignes". Plutôt que de saisir ces données supplémentaires à la main, copiez, puis collez dans la fenêtre la plage A11:I30 de la feuille "Donnees" du classeur Excel.

 EMBED PBrush 

Après avoir validé, cliquez de même sur "Ajouter des points colonnes" et collez la plage A10:J27 de la feuille Excel "Donnees transposees".
 EMBED PBrush 

Poursuivez ensuite l'exécution de l'ACP : valeurs propres, coordonnées lignes et colonnes, graphiques des points lignes, des points colonnes et graphique lignes et colonnes.

Pour interpréter les résultats trouvés, on commence par s'intéresser aux individus lignes et colonnes actifs. Ici, le premier axe classe les emplois et les diplômes en plaçant sur la partie gauche de l'axe "Sans diplôme" et les emplois peu qualifiés et sur la partie droite les diplômes "supérieurs" et les emplois d'ingénieurs et cadres supérieurs. Le second axe oppose les diplômes et emplois "moyens" (techniciens, cadres moyens, Bac, DEUG), qui occupent la partie négative de l'axe aux diplômes et emplois "extrêmes" (emplois non qualifiés, cadres supérieurs, sans diplôme, études supérieures) sur la partie positive de l'axe. Cette configuration est classique lorsque l'AFC s'applique à des variables ordinales, et porte le nom d'effet Guttman.

Pour étudier les points lignes et points colonnes supplémentaires, on compare leur position à celle du point correspondant du tableau "somme" :
 EMBED STATISTICA.Graph \s 
Le point DEUG, par exemple, est situé à la moyenne pondérée des points H-DEUG et F-DEUG. Comme les effectifs masculins et féminins pour le DEUG sont sensiblement équivalents, ce point se trouve approximativement au milieu du segment (H-DEUG, F-DEUG).

On constate que, sur le premier axe, pour tous les diplômes, les deux points représentant les hommes et les femmes sont presque confondus. En revanche, pour les points relatifs au DEUG par exemple, la différence des coordonnées sur le deuxième axe est très importante. D'une manière générale, on constate que, s'agissant des diplômes, les points relatifs aux femmes ont généralement une coordonnée sur l'axe 2 inférieure à celle du correspondant relatif aux hommes : les femmes occupent, plus que les hommes, les emplois "moyens". Inversement, les hommes sont plus nombreux à occuper des emplois "extrêmes".

Deux remarques méritent d'être faites

- Dans l'étude menée ici, l'inertie prise en compte (Phi-2 = 0,94) est celle du tableau "somme". On ne tient donc pas compte de la dispersion des données due aux discriminations liées au sexe.
- Deux points supplémentaires correspondant aux deux sexes peuvent être représentés proches l'un de l'autre sur le graphique, alors qu'il existe une forte disparité entre hommes et femmes pour cette modalité, et nous disposons de peu de moyens pour le mettre en évidence. Ce type de situation se produit lorsque la dispersion "entre sexes" est orthogonale à la dispersion due aux autres deux autres facteurs.

Deuxième analyse : tableaux "par sexe" juxtaposés et tableau "somme" en éléments supplémentaires.

Réalisez une autre AFC, en indiquant comme variables v9 à v24.
 EMBED PBrush 

Ajoutez comme points colonnes supplémentaires des données relatives au tableau somme et à la synthèse des emplois par sexe, c'est-à-dire les plages A2:J9 et A26:J27 de la feuille Excel "Donnees transposees".

 EMBED STATISTICA.Graph \s 
L'interprétation du graphique se fait comme précédemment. Cependant, l'inertie du nuage de points fait maintenant intervenir les points relatifs aux diplômes par sexe. On constate que le coefficient Phi-2 est plus élevé que dans l'étude précédente : 1,326 au lieu de 0,940. La différence entre les deux coefficients représente l'inertie "intra" (dispersion liée au sexe, pour chaque diplôme), qui représente ici presque 30% du total. Une étude plus poussée (dont les détails sortent du cadre de ce cours) permettrait de montrer que cette inertie intra est très faible sur le premier axe, mais représente presque la moitié de l'inertie du deuxième axe. Ainsi cette méthode permet, dans une certaine mesure, d'évaluer l'importance des écarts des colonnes homologues aux colonnes moyennes.


Quelques configurations remarquables dans les résultats produits par une AFC.
On pourra consulter le fichier Configurations-Types.stw qui rassemble quelques configurations classiques de nuages, générées à partir de données fictives.
Forme générale du nuage
L'inertie totale (le Phi-2) est un indicateur de la dispersion totale du nuage. La comparaison des inerties de chacun des axes (c'est-à-dire des valeurs propres associées aux axes) renseigne sur la forme du nuage de points. Si les premières valeurs propres sont proches les unes des autres, la dispersion est relativement homogène : il n'y a pas vraiment de direction privilégiée et le nuage de points est approximativement sphérique. Si au contraire, les valeurs propres sont nettement différentes, cela traduit un nuage de points fortement allongé selon une (ou plusieurs) direction.


Deux paquets de points - Valeurs propres proches de 1
Les valeurs propres sont toutes inférieures à 1. Mais, une valeur propre proche de 1 indique une dichotomie des données, c'est-à-dire un tableau de contingence qui, après reclassement des modalités, aurait l'allure suivante :
00Le nuage est alors divisé en deux paquets de points. La feuille de données "Deux-paquets" fournit une illustration de cette situation.



Trois paquets de points

De même, l'existence de deux valeurs propres proches de 1 indique une partition des observations en 3 groupes. Si toutes les valeurs propres sont proches de 1, cela indique une correspondance entre chaque modalité ligne et une modalité colonne "associée". Avec une réorganisation convenable des modalités, les effectifs importants se trouvent alors le long de la diagonale.
La feuille de données "Trois-paquets" fournit une illustration de cette situation.


L'effet Guttman.

Un nuage de points de forme parabolique indique une redondance entre les deux variables étudiées : la connaissance de la ligne i donne pratiquement celle de la colonne j. Dans un tel cas, pratiquement toute l'information est contenue dans le premier facteur. Cette configuration se rencontre notamment lorsque les deux variables sont ordinales, et classent les sujets de la même façon. Dans ce cas, le premier axe oppose les valeurs extrêmes et classe les valeurs, tandis que le deuxième axe oppose les intermédiaires aux extrêmes.

La feuille de données "Effet-Guttman" fournit une illustration assez caractéristique de cette situation. Dans ce cas, on a intérêt à ne pas limiter l'étude au plan (1, 2). La configuration-type dans les trois plans de projection définis par les 3 premiers axes prend souvent les allures indiquées dans l'exemple.
Il pourra alors être intéressant d'examiner les accidents des courbes qui joignent les points, qui reflètent les particularités des situations étudiées. Voir par exemple la situation des modalités L10 et C10 dans l'exemple "Guttman-perturbé".

 

Nuage tétraédrique
Le premier exemple ("Deux-paquets") est également caractéristique d'une forme classique de nuage : tétraédrique, ou en forme de "berlingot" comme on peut s'en rendre compte en construisant les projections du nuage sur les 3 premiers axes.
L'extension de la notion de tableau de contingence
En toute rigueur, l'analyse de correspondances ne s'applique qu'aux tableaux de contingence. Elle peut cependant être appliquée à des tableaux qui, a priori, ne sont pas des tableaux de contingence. Un critère essentiel pour décider si un tableau peut être assimilé à un tableau de contingence est le suivant : on doit pouvoir donner un sens à la somme des cases du tableau, qu'elle soit faite par ligne ou par colonne.

Tableaux juxtaposés
Considérons l'exemple fourni dans le classeur Echelles-Likert.stw. On obtient ainsi un point par produit et deux points par échelle bipolaire. On peut facilement montrer que le barycentre (pondéré) des deux points correspondant à une échelle donnée se trouve au centre de gravité du nuage. Si le point "+" se trouve plus près de l'origine que le point "-", cela signifie que l'intensité de la propriété positive est supérieure à celle de la propriété négative correspondante. Cet effet est connu sous le nom d'effet de levier.



Dans certains cas, on peut juxtaposer, par exemple, deux tableaux de contingence correspondant à des dates différentes, par exemple la ventilation de la population française par région et par CSP pour deux recensements différents. Il sera alors pertinent d'étudier comment chaque modalité s'est déplacée entre l'époque 1 et l'époque 2.
Juxtaposer plusieurs tableaux : vers l'ACM

Source : Hahn A., Eirmbter W. H., Jacob R., Le sida : savoir ordinaire et insécurité, traduction française de Herrmann M.

Il s'agit d'une enquête réalisée durant l'été 1990, auprès d'un échantillon représentatif des ménages de RFA.

Résumé du questionnaire :

Variable Modalité Codage
Sexe masculin m
féminin f

Confession protestant ev
catholique rk
autre an
sans ke

Liens avec l'église forts f1
moyens f2
inexistants f3

Catégorie Sociale élèves/étud s1
classe sup. s2
cl. moy. sup. s3
cl. moyenne s4
cl. moy. inf. s5
cl. populaire s6
autres s7

Taille du lieu de résidence < 2 k1
2 à < 5 k2
5 à < 20 k3
20 à < 50 k4
50 à < 100 k5
100 à < 500 k6
> 500 k7

Classe d'âge 18 à < 30 a1
30 à < 40 a2
40 à < 50 a3
50 à < 60 a4
60 et plus a5

Fidélité dans les rapports sexuels très pour t1
plutôt pour t2
indécis t3
plutôt contre t4
très contre t5

Plusieurs partenaires oui p1
non p2

Préférences politiques CDU/CSU cd
SPD sp
FDP fd
Verts gr

Nombre de situations jugées contaminantes
0 w0
1 w1
2 w2
3 w3
4 w4
5 w5
6 w6
7 w7
8 w8

Le sida est la conséquence d'une faute et d'une punition
très pour c1
plutôt pour c2
indécis c3
plutôt contre c4
très contre c5

Dispositions d'évitement et d'expulsion des contaminés de la sphère personnelle
très pour m1
plutôt pour m2
indécis m3
plutôt contre m4
très contre m5

Nombre de mesures obligatoires acceptées
0 z0
1 z1
2 z2
3 z3
4 z4
5 z5

Nombre de situations en public jugées dangereuses
0-1 o1
2 o2
3 o3
4 o4
5-6 o5

Le sida est un péril omniprésent
d'accord g1
indécis g2
pas d'accord g3


Ouvrez le classeur Hahn.stw et observez la façon dont a été constitué le tableau de contingence : la variable "groupe" est croisée avec toutes les autres variables, et on juxtapose ainsi 14 tableaux de contingence portant sur des populations presque identiques (presque, car pour la plupart des questions, il y a quelques non-réponses).

Réalisez une analyse des correspondances sur ce tableau et retrouvez ainsi les résultats de l'auteur :

"L'analyse des correspondances confirme l'existence de deux syndromes nettement distincts, attribuables, avec la prudence qui s'impose, à deux catégories ou milieux, qu'à la suite de Schulze on pourrait appeler "milieu harmoniste" et "milieu autodéterministe".
Notre analyse utilise la dangerosité ressentie du sida comme la variable à décrire, les autres caractéristiques servant d'indices de cette appréciation. Etant donné les trois configurations de la variable à décrire, une solution bidimensionnelle serait théoriquement possible. Mais, puisque le premier axe d'inertie rend compte de 90,25% de la variation, nous négligerons ce deuxième axe.
Graphique et tableau numérique montrent que la vision du sida comme péril a été reportée sur l'ordonnée. On distingue nettement deux groupes, qui approuvent ou rejettent les termes de la question. Ceux qui ne se prononcent pas se situent entre les deux, mais sont enclins le cas échéant à considérer le sida comme une maladie omniprésente et très infectieuse.
À cela correspond la localisation des indicateurs de dispositions (perceptions, réactions) et des repères de morphologie sociale. Les enquêtés considérant le sida comme un péril le jugent très infectieux jusque dans la vie quotidienne (3 situations courantes ou plus jugées contaminantes par un taux supérieur à la moyenne). La maladie est ressentie comme conséquence et punition d'une faute morale; les dispositions d'exclusion se manifestent nettement, et les mesures obligatoires antisida - y compris la généralisation du test obligatoire - rencontrent un taux d'adhésion supérieur à la moyenne. Ceci vérifie nos hypothèses de départ : poussée à l'extrême, la conception du sida comme danger permanent de contamination fait considérer comme porteurs de virus potentiels non seulement les membres des principaux groupes à risque.(donc une minorité), mais tous les étrangers. Les mêmes enquêtés ressentent la sphère publique comme généralement inquiétante et hostile. Leurs opinions politiques plutôt conservatrices sont attestées par une préférence très nette pour les partis CDU/CSU. Ce groupe comprend une proportion importante de personnes âgées, de niveau social peu élevé, résidant plutôt dans des communes petites ou très petites.
A l'inverse, ceux pour qui le sida n'est pas un péril au sens indiqué ci-dessus, ont pour caractéristique commune de ne pas chercher un risque de contamination là où, en l'état actuel des connaissances, un tel risque n'existe pas. On n'envisage guère la maladie en termes de culpabilité, et on réclame rarement l'exclusion des contaminés ou l'adoption de mesures répressives. Or, ces, personnes sont objectivement plus exposées à la contamination.: la fidélité sexuelle est jugée relativement moins importante, le changement de partenaire est relativement fréquent. Les considérations éthico-religieuses passent à l'arrière-plan, la proportion des personnes sans confession est relativement élevée. Politiquement, ce segment se situe majoritairement à gauche du centre, avec une préférence marquée pour les Verts. Morphologiquement, il s'agit d'une population plutôt jeune, étudiante, de niveau social élevé et majoritairement citadine."
 EMBED STATISTICA.Graph \s 

Conclusion
Au travers des exemples qui précédent, on voit que l'AFC peut être utilisée dans des situations variées. En revanche, comme l'indique Philippe Cibois dans son article "les pièges de l'AFC", il existe des situations où il vaut mieux s'abstenir d'utiliser cette méthode :

- L'AFC mettra toujours en évidence des attractions - répulsions entre modalités lignes et modalités colonne. Mais, lorsqu'on travaille sur un échantillon et que le khi-2 du tableau de contingence n'est pas significatif, l'effet mis en évidence n'est que le fruit du hasard.

- L'AFC n'a d'intérêt que si notre étude porte sur les liaisons existant entre lignes et colonnes. Comme exemple, caricatural, d'un mauvais usage de l'AFC, P. Cibois fournit le tableau suivant qui donne, pour 30 pays, le nombre de médailles d'or, d'argent et de bronze obtenues aux Jeux Olympiques d'Atlanta :

OrArgentBronzeOrArgentBronzeEtats-Unis443225Grèce440Russie262116Tchéquie434Allemagne201827Suisse430Chine162212Danemark411France15715Turquie411Italie131012Canada3118Australie9923Bulgarie375Cuba988Japon365Ukraine9212G.-Bretagne186Corée du Sud7155Iran111Pologne755Arménie110Hongrie7410Portugal101Espagne566Costa-Rica100Roumanie479Slovénie020Pays-Bas4510Zambie010
Le pays le plus "attiré" par la modalité "Or" est le Costa-Rica, qui n'a obtenu qu'une seule médaille, mais en or, alors que des pays tels que Cuba et l'Iran, avec des palmarès très différents, sont représentés proches l'un de l'autre, au voisinage de l'origine. En effet, les résultats de l'AFC ne concernent pas le nombre de médailles obtenues par les différents pays, mais l'écart entre les proportions de médailles de bronze, argent, or obtenues par le pays et la distribution totale (environ 1/3 de médailles de chaque type). Mais cet écart constitue-t-il vraiment un sujet d'étude ?

 EMBED STATISTICA.Graph \s 

Analyse des Correspondances Multiples
Introduction
L'analyse factorielle des correspondances, vue dans le paragraphe précédent, s'applique à des situations où les individus statistiques sont décrits par deux variables nominales. Mais il est fréquent que l'on dispose d'individus décrits par plusieurs (deux ou plus) variables nominales ou ordinales. C'est notamment le cas lorsque nos données sont les résultats d'une enquête basée sur des questions fermées. Une extension de l'AFC à ces situations a donc été proposée. Elle est généralement appelée Analyse des Correspondances Multiples ou ACM.

Nous nous plaçons donc dans la situation où nous disposons de N individus statistiques, décrits par q variables nominales ou ordinales X1, X2, ..., Xq. L'ACM vise à mettre en évidence :
- les relations entre les modalités des différentes variables ;
- éventuellement, les relations entre individus statistiques ;
- les relations entre les variables, telles qu'elles apparaissent à partir des relations entre modalités.

Forme des données d'entrée
Selon leur origine, les données sur lesquelles nous nous proposons de faire une ACM peuvent se présenter sous différentes formes.
Imaginons, par exemple, une mini-enquête dans laquelle nous avons posé trois questions à 10 sujets : le sexe (F ou H), le niveau de revenus (M : modeste, E : élevé) et leur préférence sur un sujet donné (3 modalités : A, B ou C). Les données peuvent se présenter sous l'une des formes décrites ci-dessous. Le classeur Mini-ACM.stw contient 5 feuilles de données correspondant à ces 5 formes.

Tableau protocole
 EMBED STATISTICA.Spreadsheet \s 
Tableau d'effectifs
 EMBED STATISTICA.Spreadsheet \s 
Tableau disjonctif complet
Le tableau disjonctif complet ou TDC comporte une colonne pour chaque modalité des variables étudiées et une ligne pour chaque individu statistique. Les cellules du tableau contiennent 1 ou 0 selon que l'individu considéré présente la modalité ou non.
 EMBED STATISTICA.Spreadsheet \s 

Tableau disjonctif des patrons
En regroupant les lignes identiques du tableau disjonctif complet, on obtient le tableau disjonctif des patrons :
 EMBED STATISTICA.Spreadsheet \s 

Tableau de Burt
L'ACM peut également être réalisée à partir d'une structuration particulière des données, appelée tableau de Burt (TdB). Ce dernier tableau comporte une ligne et une colonne pour chaque modalité des variables étudiées. Chaque cellule du tableau indique le nombre d'individus statistiques qui possèdent en même temps la modalité ligne et la modalité colonne correspondantes. Le tableau de Burt apparaît ainsi comme une juxtaposition de tableaux de contingence des variables prises deux à deux.
 EMBED STATISTICA.Spreadsheet \s 

On peut noter qu'il est possible, sans grand problème de passer de l'une des 4 premières structures de données à une autre. De même, le TdB peut être obtenu facilement à partir du tableau disjonctif complet. En revanche, il n'existe pas de moyen simple pour recomposer l'une des 4 premières structures de données à partir du tableau de Burt.

ACM avec Statistica

Comme l'indiquent Rouanet et Le Roux :

Effectuer l'analyse des correspondances multiples, c'est effectuer l'analyse factorielle des correspondances du tableau disjonctif complet, muni des relations K (modalités emboîtées dans les questions) et I (individus emboîtés dans les modalités de chaque question).

Quelle que soit la forme des données d'entrée, l'ACM sera réalisée à partir du menu Statistiques - Techniques exploratoires multivariées - Analyse des correspondances. Mais, selon la structure des données, c'est l'onglet "Analyse de correspondances" ou l'onglet "Analyse des correspondances multiples (ACM)" qui sera utilisé, selon le tableau suivant :


Format des donnéesOnglet "Analyse des Correspondances"Onglet "Analyse des Correspondances Multiple"ObservationsTableau protocoleNonOuiAFC impossible si plus de 2 variablesTableau d'effectifsNonOuiAFC impossible si plus de 2 variablesTableau Disjonctif CompletOuiNonTableau Disjonctif des patronsOuiNonTableau de BurtOuiOuiLes deux analyses ne fournissent pas les mêmes résultats
Réalisons, par exemple, une ACM sur le tableau protocole. Après avoir déclaré cette feuille de données comme 'feuille active", on sélectionne l'onglet "Analyse des correspondances multiple" et on complète le premier dialogue comme suit :



Une fois ce dialogue validé, un second dialogue s'affiche :

Le bouton "Effectifs Observés de l'onglet "Etude" permet d'obtenir un tableau similaire au tableau de Burt. Les pourcentages ligne, pourcentages colonne, khi-2, etc utilisent ce dernier tableau.

L'onglet "Avancé" permet d'obtenir les autres résultats :
 EMBED STATISTICA.Spreadsheet \s 

 EMBED STATISTICA.Spreadsheet \s 
 EMBED STATISTICA.Graph \s 

Bien que l'exemple ne comporte qu'un petit nombre d'observations, on remarque la proximité des modalités Préférence:B et Sexe:H, de même que l'opposition Préférence C, revenu E d'une part, Préférence A, Revenu M d'autre part selon le premier axe.

On note également que l'origine du repère est le milieu du segment joignant les deux modalités de la variable "Sexe", et aussi le milieu du segment joignant les deux modalités de la variable "Revenu". En effet, ces deux variables ont seulement deux modalités (d'où l'alignement de l'origine avec les modalités) et les deux modalités sont équiprobables (d'où la propriété du milieu).

On pourra recommencer l'étude en utilisant les autres feuilles de données, et on obtiendra ainsi des résultats analogues. Seule l'étude à partir du tableau disjonctif complet permet, éventuellement, de placer les individus sur le graphique.

L'étude menée à partir du tableau de Burt mérite un commentaire particulier. En effet, dans un exposé théorique sur l'ACM, tels que ceux de [Crucianu] ou de [Rouanet, Le Roux], l'analyse du tableau de Burt est distinguée de celle du TDC ou du tableau disjonctif des patrons. Il est notamment indiqué que les valeurs propres produites par cette analyse sont les carrés des valeurs propres précédentes, et que le Phi-2 du tableau de Burt n'est pas celui du TDC. Cependant, les représentations graphiques produites (limitées aux seules modalités) peuvent être interprétées de façon analogue.

Or, avec Statistica, on constate que l'on obtient, pour les modalités, des résultats identiques aux précédents. En particulier, les valeurs propres sont celles qui ont indiquées plus haut.

En revanche, nous pouvons effectuer une AFC à l'aide de l'onglet "Analyse des correspondances", en spécifiant le tableau de Burt comme tableau de contingence. On retrouve alors les résultats indiqués dans les exposés théoriques. Par exemple, le tableau des valeurs propres est alors donné par :
 EMBED STATISTICA.Spreadsheet \s 

Quelques règles d'interprétation
On cherchera d'une part à interpréter les oppositions entre modalités (ou entre groupes d'individus, si l'étude porte sur le TDC), et d'autre part à interpréter les proximités entre modalités.


L'interprétation des proximités entre les modalités devra tenir compte de la remarque suivante :
- Si deux modalités d'une même variable sont proches, cela signifie que les individus qui possèdent l'une des modalités et ceux qui possèdent l'autre sont globalement similaires du point de vue des autres variables ;
- Si deux modalités de deux variables différentes sont proches, cela peut signifier que ce sont globalement les mêmes individus qui possèdent l'une et l'autre.


Nous pouvons, comme en AFC, nous intéresser aux profils ligne et colonne, aux taux de liaison et au  EMBED Equation.3  du tableau disjonctif complet, vu comme un tableau de contingence. Le nombre de lignes de ce tableau est égal au nombre d'individus statistiques étudiés. Cependant, nous avons vu que la métrique du  EMBED Equation.3 , utilisée pour l'AFC, possède la propriété d'équivalence distributionnelle : si on regroupe deux lignes correspondant au même patron de réponses, on ne change rien aux autres profils lignes, ni aux autres profils colonnes. Autrement dit, on retrouvera les mêmes résultats en effectuant une AFC sur le tableau disjonctif des patrons.

Comme en AFC, on peut calculer des fréquences, des fréquences lignes, des fréquences colonnes et des profils lignes et profils colonnes moyens.
L'élément le plus facile à interpréter est le profil colonne moyen : ce sont les fréquences des différents patrons de réponses dans la population étudiée.
Distances entre profils lignes
En AFC, nous avions donné les formules permettant de calculer les distances entre deux profils lignes ou entre deux profils colonnes. La distance utilisée est la métrique du  EMBED Equation.3 . Ici, compte tenu de la structure particulière du tableau de contingence utilisé, les formules indiquées deviennent :

 EMBED Equation.3 

Notations utilisées : Li et Li' désignent deux patrons, Q est le nombre de questions.  EMBED Equation.3  prend la valeur 1 si la modalité k fait partie du patron i, et la valeur 0 sinon. Enfin,  EMBED Equation.3  est la fréquence de la modalité k dans la population.

Autrement dit, deux individus (ou deux patrons) sont d'autant plus éloignés que leurs réponses diffèrent pour un plus grand nombre de questions et pour des modalités rares.

La distance d'un patron au profil ligne moyen est :
 EMBED Equation.3 
Autrement dit, un patron sera d'autant plus loin de l'origine qu'il fait intervenir des modalités plus rares.

La contribution (absolue) d'un patron à la variance du nuage est obtenue en multipliant la distance précédente par la fréquence du patron dans la population.

Distances entre profils colonnes
La distance entre les modalités k et k' est donnée par :
 EMBED Equation.3 
où  EMBED Equation.3  est la fréquence de la combinaison de modalités k et k'.

La distance d'une modalité au profil colonne moyen est donnée par :
 EMBED Equation.3 
Autrement dit, une modalité sera d'autant plus loin du profil moyen que sa fréquence est faible.

La contribution absolue d'une modalité à la variance du nuage de points est :
 EMBED Equation.3 

Taux de liaison et Phi-2
Pour le tableau disjonctif complet, ou le tableau disjonctif des patrons, considérés comme des tableaux de contingence, le coefficient Phi-2 vaut :
 EMBED Equation.3 
où K désigne le nombre de modalités et Q le nombre de questions

Dans notre exemple, on a : K=7, Q=3, et donc :  EMBED Equation.3 .
Autres exemples d'ACM
Les autres exemples d'ACM que nous traiterons sont données à l'aide d'un tableau de Burt. En effet, c'est généralement sous cette forme que l'on trouve des données susceptibles de servir de base à un exercice.

Le cas "Aspirations des Français"
Ouvrez le classeur Aspi.stw. La présentation du cas, rappelée dans un rapport contenu dans le classeur est la suivante :

Source : Morineau A., Morin S., Pratique du traitement des enquêtes - Exemple d'utilisation du système SPAD, Cisia-Ceresta, Montreuil, 2000

On travaille sur des données extraites d'une enquête d'opinion réalisée en 1978, concernant les conditions de vie et les aspirations des Français.
Les questions prises en compte ici, et leurs modalités, sont les suivantes :

1- Sexe de la personne interrogée :
masc : masculin
femi : féminin
2- Possédez-vous des valeurs mobiliaires
vmo1 : oui
vmo2 : non
3- Taille d'agglomération
agg1 : moins de 2000 h
agg2 : de 2000 à 20000 h
agg3 : de 20000 à 100000 h
agg4 : plus de 100000h
agg5 : Paris
4- Diplome de l'enquêté :
die1 : aucun
die2 : CEP ou fin d'études
die3 : BEPC - BE - BEPS
die4 : bac - brevet sup.
die5 : université, gde école
5- Statut du logement
slo1 : en accession
slo2 : propriétaire
slo3 : locataire
slo4 : logé gratuit, autre
6- Age de l'enquêté
agc1 : moins de 25 ans
agc2 : 25 à 34 ans
agc3 : 35 à 49 ans
agc4 : 50 à 64 ans
agc5 : plus de 65 ans
7- Type d'emploi
emp1 : ouvriers
emp2 : employés
emp3 : cadres
emp4 : autres
empNR : non réponse

Remarque : pour une ACM sur la totalité des 27 modalités du TDB, les auteurs retiennent 5 axes principaux.

Faites tout d'abord une ACM sur la totalité du tableau de Burt (27 modalités - remarquez que seules 4 modalités de la variable "Type d'emploi" sont présentes.

Remarque : le graphique ainsi obtenu est assez peu lisible. Il est cependant possible de l'améliorer en utilisant l'outil "Balayage/Habillage" : . A l'aide de cet outil, il est par exemple possible de supprimer certains points qui se superposent au centre du graphique. Attention cependant à ce que le graphique conserve une certaine honnêteté intellectuelle !

Réalisez ensuite une ACM en ne prenant en compte que certaines variables, par exemple, la variable 2 (valeurs mobiliaires), la variable 5 (statut du logement) et la variable 6 (âge de l'enquêté). Pour cela :

- Sélectionnez les variables comme suit :

- Sélectionnez ensuite les observations correspondantes, par exemple en les désignant par leurs numéros. Pour cela, cliquez sur le bouton "Select Cases" et complétez le dialogue comme suit :



- Structurez enfin les variables (bouton "Structure de la table") de la façon suivante :


On obtient ainsi le graphique suivant :
 EMBED STATISTICA.Graph \s 

La possession de valeurs mobiliaires est ainsi plutôt associée à l'occupation d'un logement en propriété, et à une personne relativement âgée (agc4, agc5), alors que la non-possession est plutôt le fait de personnes jeunes, locataires. L'âge agc3 est dans une certaine mesure associé à l'accession à la propriété alors que le dernier statut du logement est plutôt le fait des moins de 25 ans (qui, par ailleurs, ne possèdent généralement pas de valeurs mobiliaires).

Le cas "Avignon"
Source : Croutsche, J.-J., Pratiques statistiques en gestion et études de marchés, Editions ESKA, Paris, 1997

Une enquête sur la fréquentation du centre ville d'Avignon. On trouvera ci-dessous le texte d'une partie des questions posées, ainsi que le codage des modalités de réponse.

1- Combien de fois par mois allez-vous dans le centre ville pour faire des achats ?
- a1 : Plus de 3 fois par mois
- a2 : de 2 à 3 fois
- a3 : de 1 à 2 fois
- a4 : Autre
2- Votre fréquentation du centre ville est-elle plus ou moins importante qu'il y a 5 ans ?
- f1 : Beaucoup moins importante
- f2 : Un peu moins importante
- f3 : Identique
- f4 : Un peu plus importante
- f5 : Beaucoup plus importante
3-
4-
5- Etes-vous satisfait de la propreté du centre ville ?
- p1 : très satisfait
- p2 : satisfait
- p3 : moyennement satisfait
- p4 : peu satisfait
- p5 : très peu satisfait
6- Que pensez-vous de la sécurité dans le centre ville ?
- s1 : Très faible
- s2 : Faible
- s3 : Normale
- s4 : Importante
- s5 : Très importante
7- Si vous observez des problèmes de sécurité : vous arrive-t-il de ne pas vous rendre dans le centre ville à cause de ce problème ?
- r1 : oui
- r2 : non
8-
9-
10-
11- Où habitez-vous ?
- h1 : Avignon intra-muros
- h2 : Avignon extra-muros
- h3 : autre
12-
13- Dans quelle tranche d'âge vous situez-vous ?
- â1 : 15-19 ans
- â2 : 20-30 ans
- â3 : 31-40 ans
- â4 : 41-50 ans
- â5 : 51-60 ans
- â6 : Plus de 60 ans
14-

Dans le classeur Avignon.stw se trouvent diverses feuilles de données contenant les tableaux de Burt obtenus en sélectionnant 3 ou 4 des items du questionnaire. Analysez chacun des aspects ainsi définis à l'aide d'une ACM.


Méthodes de classification
Introduction
Classifier, c'est regrouper entre eux des objets similaires selon tel ou tel critère. Les diverses techniques de classification (ou d'"analyse typologique", de "taxonomie", ou "taxinomie" ou encore "analyse en clusters" (amas)) visent toutes à répartir n individus, caractérisés par p variables X1, X2, ..., Xp en un certain nombre m de sous-groupes aussi homogènes que possible.
On distingue deux grandes familles de techniques de classification :
- La classification non hiérarchique ou partitionnement, aboutissant à la décomposition de l'ensemble de tous les individus en m ensembles disjoints ou classes d'équivalence ; le nombre m de classes est fixé.
- La classification hiérarchique : pour un niveau de précision donné, deux individus peuvent être confondus dans un même groupe, alors qu'à un niveau de précision plus élevé, ils seront distingués et appartiendront à deux sous-groupes différents.

Remarques. Ces méthodes jouent un rôle un peu à part dans l'univers des méthodes statistiques. En effet :
- L'aspect inférentiel est ici inexistant ;
- Il existe un grand nombre de variantes de ces méthodes, et on peut être amené à appliquer plusieurs de ces méthodes sur un même jeu de données, jusqu'à obtenir une classification "qui fasse sens" ;
- Au contraire des méthodes factorielles, l'accent est souvent mis sur les n individus et non sur les p variables qui les décrivent.
Méthodes de type "centre mobile" : K-moyennes
Principe de la méthode
On dispose d'un ensemble d'individus, ou observations, décrits par des variables numériques. On veut créer une partition de cet ensemble, en regroupant ces individus en un nombre déterminé K de classes : chaque individu devra appartenir à une classe et une seule. Pour cela :

On fixe de façon aléatoire K "centres de classes", ou "centres de gravité" et on exécute l'algorithme suivant :

1) Chaque observation est classée en fonction de sa proximité au centre de gravité.
2) Chaque centre de gravité est déplacé de façon à être au centre du groupe correspondant.
3) On continue jusqu'à ce que les centres de gravité ne bougent plus
Mise en oeuvre sur un mini-exemple
On dispose de 8 individus décrits par 2 variables. Une troisième variable est constante sur l'ensemble des individus. Les données sont les suivantes :
XYZ1511025-110315104-15105-51106-5-11071-5108-1-510Nuage de points correspondant :
 EMBED STATISTICA.Graph \s 
Nous souhaitons définir 4 classes à partir de ces 8 objets.

Ouvrez le classeur Mini-K-Means.stw.
Utilisez le menu Statistiques - Techniques exploratoires multivariées - Classifications et sélectionnez la méthode K-moyennes.
 EMBED PBrush 

Sélectionnez X et Y comme variables d'analyse, et, sous l'onglet "Avancé", spécifiez une classification sur les observations, comportant 4 classes. Cochez également la case "traitements et rapports par lots", ce qui permettra de produire en une seule manipulation l'ensemble des résultats de la classification.



Comme prévu, les 4 classes formées par Statistica sont {O1, O2}, {O3, O4}, {O5, O6} et {O7, O8} (cf. les 4 feuilles de résultats "composition de la classe N° ...). Par exemple, pour la première classe :

 EMBED STATISTICA.Spreadsheet \s 

Le centre C1 de cette classe est évidemment le point de coordonnées (5, 0). On peut remarquer que la distance calculée par Statistica n'est pas tout à fait la distance euclidienne dans le plan, mais correspond à la formule suivante :
 EMBED Equation.3 
Le dénominateur introduit dans la formule représente le nombre de variables, comme on peut s'en rendre compte en introduisant la troisième variable (Z) dans la classification.

La même règle est appliquée pour le calcul des distances entre classes, autrement dit entre centres de classes :
 EMBED STATISTICA.Spreadsheet \s 

Les coordonnées des centres de classes sont disponibles dans la feuille de résultats "Moy. Classes" :
 EMBED STATISTICA.Spreadsheet \s 

Statistica effectue également une analyse de variance à un facteur sur chacune des variables. Le facteur pris en compte ici est l'appartenance de l'observation à l'une des classes :

 EMBED STATISTICA.Spreadsheet \s 

Ces résultats peuvent être retrouvés à l'aide du menu ANOVA. On introduit une quatrième variable, nommée "Groupe", contenant le numéro de la classe à laquelle appartient l'observation. Puis, on effectue une analyse de variance à un facteur en indiquant X (par exemple) comme variable dépendante et Groupe comme variable de classement.

Le seul résultat qui n'est pas automatiquement produit par le traitement par lots est le graphique des moyennes. Pour l'obtenir, ré-affichez la fenêtre du traitement en cours, désactivez la case "traitement par lots" et cliquez sur OK. Dans la fenêtre de dialogue "Résultats de l'analyse par les k-moyennes", cliquez sur le bouton "Graphique" :
 EMBED STATISTICA.Graph \s 

Mise en oeuvre sur les exemples traités dans les paragraphes ACP et AFC
Classification des variables du cas "Représentations sociales de l'homosexualité"
On reprend l'exemple "Représentations sociales de l'homosexualité" que nous avions traité par une ACP (classeur Statistica Rep-Soc-Homo.stw). Rappelons que les variables sont ici homogènes, puisque chaque variable est un protocole de rangs observés sur les 15 traits étudiés.

Une classification en 3 classes, portant sur les variables va-t-elle confirmer les résultats que nous avions obtenus en analysant les résultats de l'ACP ?

 EMBED STATISTICA.Spreadsheet \s 

On constate que la classe 3 regroupe les variables correspondant à une cible masculine, la classe 1 regroupe les jugements portés par les homosexuels sur eux-mêmes et sur leur stéréotype, tandis que la classe 2 rassemble non seulement les variables correspondant à une cible féminine mais aussi He:Ho, c'est-à-dire la description de la cible "homosexuels" faite par les hétérosexuels.
Classifications sur le cas "Protéines"
On reprend le fichier Proteines-2008.stw.

La répartition en 2 groupes "protéines animales v/s protéines végétales" apparaît-elle naturellement dans les données étudiées ?

Effectuez une classification de type K-moyennes, portant sur les variables 1 à 9 de la feuille "Protein et Groupes" en indiquant deux classes. Faites une sélection des observations, de manière à éliminer de l'étude les moyennes par zone géographique :
 EMBED PBrush  EMBED PBrush 

On voit que l'une des classes est constituée de la seule variable "céréales" pendant que l'autre classe rassemble les 8 autres variables. En effet, l'étendue de la variable "Céréales" est très différente de celle des autres variables, et le résultat produit ne fait que l'illustrer.

On peut résoudre ce problème soit en travaillant sur des données centrées réduites, soit en utilisant les coordonnées des variables selon les axes factoriels produites par une ACP normée. Par exemple, activez la feuille "Proteines-Centre-Reduit". Reprenez une classification analogue, mais portant sur les variables centrées-réduites. Cette fois, la classification recouvre assez bien l'origine (animale v/s végétale) des protéines, mais les féculents restent regroupés avec les protéines animales :
 EMBED STATISTICA.Spreadsheet \s 
Classification des lignes dans le cas "Régions-2001"

On reprend le classeur Statistica Regions-2001.stw.

Une classification basée sur le tableau de contingence n'aurait pas grand sens. En revanche, on peut utiliser les résultats de l'AFC comme données de base pour essayer de faire une classification des régions en 3 ou 4 ensembles.

Refaites au besoin une AFC sur ce tableau de contingence et rendez active la feuille contenant les résultats relatifs aux individus lignes (les régions). Faites ensuite une classification de type "K-moyennes", en utilisant les variables "Coord." de cette feuille et en spécifiant 3 ou 4 classes. Vous devriez retrouver en grande partie la typologie que nous avions obtenue en analysant les résultats de l'AFC.

Remarque. Les résultats de la classification dépendent-ils du nombre d'axes factoriels représentés dans la feuille de résultats de l'AFC ? On pourra essayer de refaire la classification sur les coordonnées factorielles d'un plus grand nombre d'axes, et constater qu'il en résulte peu de modifications des résultats produits : l'essentiel de la variation est représenté par les premiers axes.
Remarques et conclusion
Cette méthode produit des résultats qui peuvent être facilement exploitables. On notera cependant que l'on doit indiquer a priori le nombre de classes, ce qui nuit à l'aspect véritablement "exploratoire" de la méthode. D'autre part, les variables traitées doivent être homogènes (s'exprimer avec la même unité, ou au moins avoir la même plage de variation) et c'est toujours la distance euclidienne qui est utilisée pour évaluer les distances entre objets.
Classification Ascendante Hiérarchique
Les 4 étapes de la méthode
Choix des variables représentant les individus

Dans le cas où les données observées sont les valeurs de p variables numériques sur n individus, on pourra choisir d'effectuer une classification des individus, ou une classification des variables. On peut choisir, par exemple, de retenir certains "traits" des individus (autrement dit certaines variables qui ont servi à les décrire) et réaliser la classification sur les individus décrits par ce choix de variables.
On peut noter qu'il revient au même par exemple :
- de réaliser la CAH des individus à partir de p variables centrées réduites ;
- de réaliser la CAH des individus à partir des p facteurs obtenus à l'aide d'une ACP normée sur les variables précédentes.
Toutefois, il peut être intéressant de réaliser la CAH à partir des q premiers facteurs (q