Td corrigé Classification Ascendante Hierarchique (CAH) - Jonathan Lenoir pdf

Classification Ascendante Hierarchique (CAH) - Jonathan Lenoir

TD Master EAB : Classification Ascendante Hiérarchique appliquée à des données .... L'examen complet des possibilités étant impossible, il est nécessaire de .... et dont la projection sur le plan factoriel (F1 : F2) d'une AFC est la suivante : .




part of the document









Classification Ascendante Hiérarchique : application a des données phytoécologiques
TD Master EAB
Théorie et application sous R à des données de présence/absence issues de relevés floristiques forestiers
Le but de cette session de Travaux Dirigés est de réaliser une classification automatique d’un ensemble d’individus (espèces ou relevés en phytoécologie) dans des groupes homogènes. Dans un premier temps, nous présenterons une méthode possible de classification, la Classification Ascendante Hiérarchique (CAH), algorithme largement utilisé en écologie. Ensuite, nous appliquerons cette méthode au cas de données phytoécologiques, ceci afin de créer des groupes d’espèces ou de relevés (exercice de typologie des stations). On pourra utiliser les résultats obtenu par l’AFC sur le jeu de données des montagnes du Lomont pour illustrer la méthode de CAH.
Table des matières
 TOC \o "1-3" 1 INTRODUCTION A LA CAH  PAGEREF _Toc476749269 \h 3
1.1 Dans quelles situations a t-on recours à la CAH ?  PAGEREF _Toc476749270 \h 3
1.2 Principes de la CAH  PAGEREF _Toc476749271 \h 3
1.2.1 Le problème de la classification : explosion combinatoire  PAGEREF _Toc476749272 \h 3
1.2.2 Classification dans un espace métrique : choix d’une distance et d’un critère  PAGEREF _Toc476749273 \h 4
1.2.3 Méthode de classification : algorithme de la CAH  PAGEREF _Toc476749274 \h 5
1.3 Exemple élémentaire sur deux variables issues d’une AFC (axes F1 et F2)  PAGEREF _Toc476749275 \h 6
2 JEU DE DONNEES  PAGEREF _Toc476749276 \h 8
2.1 Récupération des coordonnées factorielles des axes de l’AFC phytoécologique  PAGEREF _Toc476749277 \h 8
2.2 Préparation des données sous R  PAGEREF _Toc476749278 \h 8
3 CAH D’UN TABLEAU FLORISTIQUE ET INTERPRETATIONS DES GROUPES  PAGEREF _Toc476749279 \h 9
3.1 Réalisation de la CAH  PAGEREF _Toc476749280 \h 9
3.1.1 Classification des espèces  PAGEREF _Toc476749281 \h 9
3.1.2 Classification des relevés  PAGEREF _Toc476749282 \h 9
3.1.3 Intégration des groupes dans le tableau floristique  PAGEREF _Toc476749283 \h 9
 INTRODUCTION A LA CAH
L’objectif de la CAH est de classer des individus ayant un comportement similaire suivant un ensemble de variables (variables mesurées directement sur le terrain, variables calculées, ou bien des variables synthétiques issues d’axes factoriels par exemples).
Dans quelles situations a t-on recours à la CAH ?
Lorsque l’on cherche à faire des groupes homogènes. Cette situation se rencontre souvent en écologie dans la conception des typologies : typologies d’occupations du sol ; typologies de peuplements forestiers ; typologies de stations ; etc.
Exemples :
Classer 93 départements à partir de 11 variables décrivant l’occupation du sol ;
Classer 43 placettes forestières de Pin de Salzmann à partir de 5 variables de peuplements ;
Classer 85 espèces décrites par 2 axes factoriels issus d’une AFC.
C’est une méthode qui vient souvent en complément d’une ACP ou d’une AFC.
Question : Comment faire k groupes ?
Principes de la CAH
Pour l’essentiel, les techniques de classification font appel à une démarche algorithmique et non à des techniques mathématiques complexes : les résultats sont obtenus au terme d’une série d’opérations simples et répétitives.
Regrouper les individus les plus proches nécessite plusieurs conditions préalables afin d’effectuer une mesure de proximité entre chaque paires d’individus :
Besoin d’une distance ;
Besoin d’un critère de comparaison pour le regroupement des individus ;
Besoin d’une méthode de classement, d’un algorithme prédéfini.
Le problème de la classification : explosion combinatoire
Classification : Faire k groupes « optimaux » dans un ensemble E à n éléments. Les différentes possibilités de constituer k groupes dans un ensemble de n individus sont des combinaisons appelées partitions de l’ensemble E.
Définition d’une partition : tout éléments de E ne peut appartenir qu’à un seul groupe à la fois et chaque éléments appartient obligatoirement à un groupe, de sorte que la somme des éléments contenus dans les différents groupes d’une partition est égale à la totalité des éléments de E.
Soit un ensemble E de 10 individus dont on veut extraire 4 groupes. Le nombre total de combinaisons possibles de diviser E en 4 groupes différents peut être approché par la formule suivante :
 EMBED Equation.3  partitions possible de 10 individus en 4 groupes.
Si l’on n’a pas une idée a priori du nombre de groupes que l’on aimerait faire dans cet ensemble de 10 individus, le nombre totale de partitions possible correspond à la somme des partitions pour chaque valeur de k allant de 1 à 10, soit :
 EMBED Equation.3  partitions possible de 10 individus.
Très rapidement l’on atteint des chiffres astronomiques, on parle d’explosion combinatoire. Par exemple pour classer 85 espèces en 6 groupes, on compte 2.1063 possibilités. Il est impossible, même pour un ordinateur très puissant d’examiner l’ensemble des partitions possibles, de les comparer une à une, et d’en sélectionner la plus optimale suivant des critères prédéfinis.
L’examen complet des possibilités étant impossible, il est nécessaire de passer par des méthodes sub-optimales de classification. La CAH est une méthode de classification parmi d’autres et ne constitue donc pas la seule manière de classer des individus dans des groupes. Néanmoins il s’agit d’une méthode simple qui permet à partir d’un algorithme simplifié, d’étudier des distances entre individus et groupes.
Comment mesurer la « distance » entre 2 groupes ?
Classification dans un espace métrique : choix d’une distance et d’un critère
Une distance : Pour regrouper les individus les plus proches, il faut pouvoir connaître la distance qui sépare les différents individus entre eux, d’où la nécessité de choisir une distance. Par exemple en phytoécologie, on travaille avec une distance euclidienne sur les axes factoriels.
Un critère de choix : De manière intuitive, la meilleure façon de faire des groupes d’individus homogènes entre eux et bien différents d’un groupe à l’autre, c’est de faire des paquets d’individus en fonction des distances qui les séparent. C’est à dire minimiser les distances qui séparent les différents individus à l’intérieur d’un paquet tout en maximisant les distances qui séparent les individus appartenant à des paquets différents :
Inertie totale :
 EMBED Equation.3 
Inertie intra-groupe :
 EMBED Equation.3 
 EMBED Equation.3 
 EMBED Equation.3 
 EMBED Equation.3 
Inertie inter-groupe :
 EMBED Equation.3 
Propriété : Itot = Iintra + Iinter
On utilise le critère d’inertie comme une mesure de la dispersion des individus autour du centre de gravité G de l’ensemble E (inertie totale) ou bien autour du centre de gravité du groupe auquel ils appartiennent (inertie intra-groupe). Plus l’inertie est faible, plus les individus sont ramassés autour du centre de gravité considéré. L’inertie totale de E est constante étant donné que les éléments constituant E ne bougent pas, tandis que l’inertie intra-groupe est variable au sein de chaque groupe à k fixé, suivant les partitions considérées de n éléments parmi k groupes. Le but sera donc de comparer ces différentes inerties intra-groupe pour chaque partition possible et de conserver la partition qui minimise l’inertie intra-groupe dans le maximum de groupes, ce qui équivaut à trouver la configuration des k groupes dans E qui maximise l’inertie inter-groupe (différence entre l’inertie totale et la somme, sur les groupes, des inerties intra-groupes).
Par conséquent, la CAH utilise les distances euclidiennnes et le critère de Ward, qui minimise l’inertie intra-groupe pour constituer des groupes d’individus homogènes entre eux.
Méthode de classification : algorithme de la CAH
L’algorithme de la CAH est simple, il consiste à partir de la situation initiale où chaque individu de E constitue un groupe à lui tout seul, soit un total de n groupes. Par conséquent les conditions initiales en termes d’inertie sont les suivantes :
Iintra = 0
Iinter = Itot
Etape 1, n groupes : L’algorithme recherche les 2 individus les plus proches en terme de distance euclidienne pour former un premier couple, ce qui provoque une augmentation de l’inertie intra-groupe (augmentation la plus faible parmi l’ensemble des augmentations possible étant donné que l’algorithme à sélectionné les 2 individus les plus proches). L’algorithme remplace les 2 individus par le couple placé au barycentre des 2 individus qui le compose, le nombre d’individus diminue (n-1).
Etape 2, (n-1) groupes : L’algorithme recalcule les distances entre tous les individus (n-1). A nouveau, l’algorithme regroupe les 2 individus les plus proches en formant un nouveau couple ce qui provoque une nouvelle augmentation de l’inertie intra-groupe couplée d’une diminution du nombre d’individus (n-2).
Etape 3, (n-2) groupes : Réitération de la procédure…
Etape n, 1 groupe : C’est la dernière étape de l’algorithme, cette fois l’inertie totale est contenue dans l’inertie intra-groupe, il n’existe plus d’inertie inter-groupe.
L’algorithme procède de manière ascendante jusqu’à n’obtenir qu’un seul groupe.
Finalement, la CAH produit une hiérarchie des individus (espèces ou relevés en phytoécologie) où ceux-ci sont progressivement agrégés en groupes de plus en plus gros :
à la base du dendrogramme (arbre des groupes), chaque individu forme à lui seul un groupe ;
au sommet, tous les individus appartiennent au même groupe.
Le passage d’un niveau de la hiérarchie au suivant consiste à fusionner les deux groupes qui se ressemblent le plus, l’idée générale est de minimiser la variabilité (inertie) intra-groupe et de maximiser la variabilité (inertie) inter-groupe.
Exemple élémentaire sur deux variables issues d’une AFC (axes F1 et F2)
Soit 5 individus distribués dans un espace à plusieurs dimensions, et dont la projection sur le plan factoriel (F1 : F2) d’une AFC est la suivante :
Etape 1 : 5 individus, 5 classes
On construit la matrice des distances entre les 5 individus et on regroupe les 2 individus les plus proches :
Etape 2 : 5 individus, 4 classes
En utilisant un critère d’agrégation, tel que le critère de Ward qui cherche à minimiser l’inertie intra-groupe (ce qui revient à maximiser l’inertie inter-groupe, puisque l’inertie totale est constante et égale à la somme des inerties intra et inter-groupes), on mesurer la distance entre une classe et un élément individuel. On assimile les individus 1 et 2 comme une classe et l’on compare les distances entre cette classe et les 3 individus restants (3, 4 et 5), et à nouveau, on regroupe les 2 individus les plus proches :
Etape 3 : 5 individus, 3 classes
On réitère la même procédure que précédemment, suivant le même critère d’agrégation de Ward et la distance dite euclidienne :
Etape 4 : 5 individus, 2 classes
Etape finale : choix du nombre de groupes
JEU DE DONNEES
Récupération des coordonnées factorielles des axes de l’AFC phytoécologique
Pour ce TD sur la CAH, nous utiliserons les données récoltés par la 16ème promotion de la FIF au cours du projet phytoécologie 2006. Veuillez télécharger le fichier « lomont.xlsx » ici :  HYPERLINK "https://jonathanlenoir.wordpress.com/datasets/" https://jonathanlenoir.wordpress.com/datasets/. Le but de cet exercice phytoécologique réalisé en 2006 était la réalisation d’une typologie de stations forestières pour aider les gestionnaires forestiers à établir un diagnostic rapide des conditions écologiques existant sur une parcelle forestière dans la région du Lomont. Un tel diagnostic permet d’adapter la gestion aux conditions écologiques en conciliant production de bois de qualité et respect de l’environnement dans le contexte actuel de production durable.
La classification sera réalisée à partir des coordonnées factorielles des deux premiers axes de l’AFC réalisée sur le tableau floristique du jeu de données précédent (cf. TD AFC aussi disponible sur le même site Internet :  HYPERLINK "https://jonathanlenoir.wordpress.com/exercices/" https://jonathanlenoir.wordpress.com/exercices/). Pour récupérer les coordonnées factorielles nécessaires à la réalisation des groupes d’espèces et de relevés sous le logiciel R, il est préférable de relancez rapidement l’AFC sur la feuille « flo » du classeur lomont.xlsx, avec les fonctions et lignes de commandes R vues en TD lors de la réalisation de l’AFC.
Préparation des données sous R
Pour récupérer les coordonnées factorielles à partir de l’AFC du tableau floristique « flo » (cf. jeu de données lomont.xlsx), la préparation des données de coordonnées factorielles pour le traitement sous CAH nécessite quelques manipulations sous R.
( Dans un premier temps, il faut extraire les éléments co (coordonnées factorielles des espèces) et li (coordonnées factorielles des relevés) contenus dans l’objet résultat de l’AFC (cf. le nom que vous avez donné à votre résultat d’AFC, ex : monafc).
> cfco cfli cfco$noms cfli$noms esp.dist esp.cah plot(esp.cah)# Visualisation du dendrogramme des espèces
( Combien de groupes désirez-vous faire ?
> rect.hclust(esp.cah, k=8)# Découpage du dendrogramme en 8 groupes d’espèces
> esp.grp rel.dist rel.cah plot(rel.cah)# Visualisation du dendrogramme des espèces (cas du relevé « 109 » ?)
( Que pensez-vous du relevé n°109 ? Faut-il relancer l’AFC et la CAH en excluant ce relevé atypique ?
( Combien de groupes désirez-vous faire ?
> rect.hclust(rel.cah, k=8)# Découpage du dendrogramme en 8 groupes de relevés
> rel.grp flo$grp flo