Correction du contrôle Analyse des données / Analyse ... - Td corrigé
L'analyse factorielle discriminante est bien adaptée car cette méthode permet ...
Si on s'intéresse à l'arbre dans sa globalité, en considérant les segments ...
part of the document
Correction du contrôle Analyse des données / Analyse factorielle discriminante et segmentation.
Ce corrigé est disponible sur le réseau dans le dossier correspondant à votre promotion.
Exercice 1
Chaque variété est caractérisée par sept variables quantitatives. Chacune de ces variables apporte une information très différente et complémentaire à celle fournie par les autres. On cherche à prédire une variable qualitative, la valeur boulangère, à quatre modalités. Lanalyse factorielle discriminante est bien adaptée car cette méthode permet dutiliser toute linformation disponible, toutes les caractéristiques décrites par les tests technologiques.
Remarque : les variétés sont les individus statistiques et non les modalités de la variable à expliquer
Le nombre de modalités de la variable à expliquer est égal à 4 (q = 4) ; le nombre de variables explicatives est égal à 7 (p = 7). Le nombre daxes discriminants correspond à
Inf(q 1, p), cest la plus petite de ces deux valeurs.
Il y a donc 3 axes discriminants.
Remarque : un certain nombre dentre vous na pas été capable de lire lénoncé et de trouver le nombre correct de variables explicatives.
Puisquil veut utiliser son analyse pour prédire la valeur boulangère, le sélectionneur doit calculer une erreur de classement. Soit lerreur apparente de classement, sil utilise les variétés qui ont servi à réaliser lanalyse factorielle discriminante ; soit lerreur réelle, sil utilise un autre échantillon (constitué par exemple de lignées en cours de sélection).
Exercice 2
L arbre contient 3 segments terminaux, les segments 2, 4 et 5.
a) La formule générale de l impureté dans le segment t est
EMBED Equation.3 avec r `" t
segment 2 effectif n2 = 90 + 54 + 22 + 30 = 196
EMBED Equation.3
segment 4 n4 = 140
EMBED Equation.3
segment 5 n5 = 114
EMBED Equation.3
Si on sintéresse à larbre dans sa globalité, en considérant les segments terminaux qui le constituent
i(arbre) = EMBED Equation.3
b) Lorsque la probabilité a priori dune modalité quelconque est sa fréquence et que les coûts derreur daffectation sont tous égaux à 1, la modalité affectée à un segment terminal est la modalité la plus fréquente (la plus représentée). La modalité affectée au segment 5 est donc la modalité 4.
c) Quel que soit le segment de larbre, dans les conditions présentées en b) dans lénoncé, on affecte au segment la modalité la plus fréquente. Rechercher le taux derreur apparente du segment 1 revient à considérer lerreur apparente pour larbre le plus petit possible (car constitué dun seul segment) dans la séquence délagage (revenez à votre TD). Lerreur apparente est égale à : (effectif des mal classés) / (effectif total du segment). La modalité 3 est affectée au segment 1, lerreur apparente est donc égale à (120 + 80 + 100) /450.
Exercice 3
Lanalyse factorielle discriminante et la segmentation sont des méthodes qui peuvent être utilisées à des fins descriptives. Mais ce sont aussi, et surtout, des méthodes à usage prédictif. Dans ces conditions dutilisation, les deux méthodes nécessitent de mesurer lerreur de prédiction. Selon léchantillon utilisé pour le calcul, lerreur calculée est une erreur apparente ou une erreur théorique.
Remarque : plusieurs dentre vous ont dit que ces méthodes permettent de réaliser des groupes dindividus. Attention ces groupes préexistent à lusage de la méthode pour lanalyse factorielle discriminante, puisquils correspondent aux individus portant la même modalité de la variable qualitative à expliquer ; ils ne sont donc pas constitués à lissue de lusage de la méthode.