Td corrigé Correction du contrôle Analyse des données / Analyse ... - Td corrigé pdf

Correction du contrôle Analyse des données / Analyse ... - Td corrigé

L'analyse factorielle discriminante est bien adaptée car cette méthode permet ... Si on s'intéresse à l'arbre dans sa globalité, en considérant les segments ...




part of the document



Correction du contrôle Analyse des données / Analyse factorielle discriminante et segmentation.


Ce corrigé est disponible sur le réseau dans le dossier correspondant à votre promotion.


Exercice 1
Chaque variété est caractérisée par sept variables quantitatives. Chacune de ces variables apporte une information très différente et complémentaire à celle fournie par les autres. On cherche à prédire une variable qualitative, la valeur boulangère, à quatre modalités. L’analyse factorielle discriminante est bien adaptée car cette méthode permet d’utiliser toute l’information disponible, toutes les caractéristiques décrites par les tests technologiques.
Remarque : les variétés sont les individus statistiques et non les modalités de la variable à expliquer

Le nombre de modalités de la variable à expliquer est égal à 4 (q = 4) ; le nombre de variables explicatives est égal à 7 (p = 7). Le nombre d’axes discriminants correspond à
Inf(q – 1, p), c’est la plus petite de ces deux valeurs.
Il y a donc 3 axes discriminants.

Remarque : un certain nombre d’entre vous n’a pas été capable de lire l’énoncé et de trouver le nombre correct de variables explicatives.

Puisqu’il veut utiliser son analyse pour prédire la valeur boulangère, le sélectionneur doit calculer une erreur de classement. Soit l’erreur apparente de classement, s’il utilise les variétés qui ont servi à réaliser l’analyse factorielle discriminante ; soit l’erreur réelle, s’il utilise un autre échantillon (constitué par exemple de lignées en cours de sélection).


Exercice 2
L arbre contient 3 segments terminaux, les segments 2, 4 et 5.
a) La formule générale de l impureté dans le segment t est

 EMBED Equation.3  avec r `" t
segment 2 effectif n2 = 90 + 54 + 22 + 30 = 196

 EMBED Equation.3 





segment 4 n4 = 140

 EMBED Equation.3 
segment 5 n5 = 114

 EMBED Equation.3 

Si on s’intéresse à l’arbre dans sa globalité, en considérant les segments terminaux qui le constituent

i(arbre) =  EMBED Equation.3 

b) Lorsque la probabilité a priori d’une modalité quelconque est sa fréquence et que les coûts d’erreur d’affectation sont tous égaux à 1, la modalité affectée à un segment terminal est la modalité la plus fréquente (la plus représentée). La modalité affectée au segment 5 est donc la modalité 4.

c) Quel que soit le segment de l’arbre, dans les conditions présentées en b) dans l’énoncé, on affecte au segment la modalité la plus fréquente. Rechercher le taux d’erreur apparente du segment 1 revient à considérer l’erreur apparente pour l’arbre le plus petit possible (car constitué d’un seul segment) dans la séquence d’élagage (revenez à votre TD). L’erreur apparente est égale à : (effectif des mal classés) / (effectif total du segment). La modalité 3 est affectée au segment 1, l’erreur apparente est donc égale à (120 + 80 + 100) /450.


Exercice 3
L’analyse factorielle discriminante et la segmentation sont des méthodes qui peuvent être utilisées à des fins descriptives. Mais ce sont aussi, et surtout, des méthodes à usage prédictif. Dans ces conditions d’utilisation, les deux méthodes nécessitent de mesurer l’erreur de prédiction. Selon l’échantillon utilisé pour le calcul, l’erreur calculée est une erreur apparente ou une erreur théorique.

Remarque : plusieurs d’entre vous ont dit que ces méthodes permettent de réaliser des groupes d’individus. Attention ces groupes préexistent à l’usage de la méthode pour l’analyse factorielle discriminante, puisqu’ils correspondent aux individus portant la même modalité de la variable qualitative à expliquer ; ils ne sont donc pas constitués à l’issue de l’usage de la méthode.