TD1 : Exercices de statistiques descriptives
TD 01 et 02 - Analyse globale des systèmes complexes pluri-technologiques
Lycée Bellevue Toulouse - CPGE PCSI. Système d'ouverture de porte de TGV - ...
part of the document
311
Construire la table des fréquences et le diagramme en bâtons en fréquences de la série du nombre de voitures.
Calculer la moyenne et lécart-type de cette série.
Déterminer la médiane, les quartiles et tracer le box-plot.
Etudier la symétrie de la série.
Exercice 4 : On donne la série unidimensionnelle suivante, correspondant à la répartition des entreprises du secteur automobile en fonction de leur chiffre daffaire en millions deuros.
Calculer le chiffre daffaire moyen et lécart-type de la série.
Construire lhistogramme des fréquences
Construire les deux polygones des fréquences cumulées
Calculer la médiane et la proportion dentreprises dont le chiffre daffaire est supérieur à 3 millions deuros.
Exercice 5 : La distribution des demandeurs demploi selon le sexe et la classe dâge dans une localité est la suivante :
a) Tracer les deux courbes de fréquences cumulées croissantes.
b) Déterminer les quartiles de la variable X associant à chaque demandeur demploi masculin son âge. Même question pour les demandeurs demploi de sexe féminin.
c) Conclusions.
B- Statistiques descriptives bidimensionnelles
Exercice 6 : On cherche à étudier la relation entre le nombre denfants dun couple et son salaire. On dispose de la série bidimensionnelle suivantes :
Salaire en euros (Y)Nombre denfants (X)5104590390021420120000600585061300722008
Calculer le coefficient de corrélation linéaire entre ces deux variables statistiques. Conclusion ?
Un expert en démographie affirme que les deux caractéristiques sont indépendantes. Quen pensez-vous ?
Exercice 7 : Lindice moyen dun salaire a évolué de la façon suivante :
Représenter cette série statistique par un nuage de points.
b) En utilisant la méthode des moindres carrées, calculer léquation de la droite représentant lindice en fonction de lannée.
c) Comment pourrait-on prévoir lindice à lannée 9 ?
Exercice 8 : Soit X une variable statistique qualitative à k modalités et Y une variable statistique quantitative. Chaque modalité de X définit une sous-population : celle des individus ayant cette modalité. On note EMBED Equation.DSMT4 leffectif correspondant à la modalité j de X, EMBED Equation.3 (resp. EMBED Equation.3 ) la moyenne (resp. la variance) des valeurs de la variable Y pour les individus de la modalité j. Montrer que EMBED Equation.3 où EMBED Equation.3 . On les appelle respectivement variances inter et intra-catégories.
Exercice 9 : On observe le nombre denfants Y sur un ensemble de 12 individus répartis entre les sexes (variable X) :
F345425H1076342
Représenter graphiquement cette série.
Calculer les moyennes arithmétiques dans chaque classe
Calculer les variances inter et intra-catégories.
Calculer et interpréter le rapport de corrélation entre X et Y. Conclusion ?
Exercice 10 : Soient x et y deux séries statistiques de taille n. On note rx et ry les séries des rangs correspondantes.
Montrer que EMBED Equation.DSMT4 .
Montrer que EMBED Equation.3 .
En posant EMBED Equation.3 , montrer que EMBED Equation.DSMT4 .
En déduire lexpression du coefficient linéaire entre ces deux séries, appelé coefficient de corrélation des rangs de Spearman : EMBED Equation.3 .
Exercice 11 : Dix échantillons de cidre ont été classés par ordre de préférence par deux gastronomes. On obtient les classements suivants :
A12345678910B31426598107
Calculer le coefficient de corrélation des rangs de Spearman. Conclusion ?
Une autre façon dévaluer le lien entre les rangs de deux séries consiste à utiliser le coefficient de corrélation des rangs de Kendall. Ce coefficient est défini par : EMBED Equation.3 , où EMBED Equation.3 est obtenue de la façon suivante : on considère tous les couples dindividus de la série. On note 1 si les individus i et j sont dans le même ordre pour les deux variables considérées (ici EMBED Equation.3 et EMBED Equation.3 ). On note -1 si les deux classements discordent (ici EMBED Equation.3 et EMBED Equation.3 ). EMBED Equation.3 est la somme les valeurs obtenues pour les EMBED Equation.3 couples distincts. Montrer que EMBED Equation.3 est compris entre -1 et 1 et quil est dautant plus proche de 1 que les classements sont semblables. Calculer EMBED Equation.3 pour les données dont on dispose.
Exercice 12 : On considère un échantillon de 797 étudiants dune université ayant obtenu le DEUG. On étudie le lien entre lage dobtention du Bac (variable Y), à 4 modalités (moins de 18 ans, 18 ans, 19 ans, plus de 19 ans), et la durée dobtention du DEUG (variable X), à 3 modalités (2 ans, 3 ans, 4 ans). On a la table de contingence ci-dessous :
X YMoins de 18 ans18 ans19 ansPlus de 19 ans2 ans8422473193 ans3513775274 ans14593416
Déterminer le tableau des profils colonnes en pourcentage
Représenter graphiquement le diagramme en barre de ces profils
Déterminer le tableau des effectifs théoriques
Calculer lindice du Chi2 et les contributions de chaque case. Conclusion ?