Hommes - Serveur de mathématiques - LMRL
Ch. V (suite) : STATISTIQUES À DEUX VARIABLES ...... Exercice 785: (Exercice
d'examen) On décide de sélectionner un échantillon aléatoire de 10 élèves afin ...
part of the document
Ch. V (suite) : STATISTIQUES À DEUX VARIABLES
ContenuExtensions / inclusions6.7.Diagrammes de dispersion ; droite de régression trouvée visuellement, passant par le point moyen.
Données à deux variables : le concept de
corrélation.
Le coefficient de corrélation de Pearson :
utilisation de la formule EMBED Equation.DSMT4
Interprétation des corrélations positives, nulles
et négatives.Dans les épreuves écrites : la valeur de sxy sera donnée, si nécessaire.
sx représente lécart-type de la variable X ;
sxy représente la covariance des variables X et Y. Une calculatrice à écran graphique peut être utilisée pour calculer r lorsque des données brutes sont présentées.
6.8.La droite de régression pour y en fonction de x : utilisation de la formule
y - eq \x\to(y)= EMBED Equation.3 ·(x- eq \x\to(x))
Utilisation de la droite de régression pour faire des prédictions.On sattend à une compréhension des valeurs aberrantes de la part des élèves.
Les élèves doivent être conscients que la droite de régression est moins fiable lorsquon létend bien au-delà de la région occupée par les données.
Une calculatrice à écran graphique peut être utilisée pour trouver léquation de la droite de régression lorsque des données brutes sont présentées.6.9.Le test dindépendance du Ç2 ; formulation de l hypothèse nulle et de l hypothèse alternative ;
seuils de signification ; tableaux de contingence ;
fréquences théoriques ; utilisation de la formule
degrés de liberté ;
utilisation des tables pour trouver les valeurs critiques ; valeurs de p.Inclus : tableaux de contingence h par k avec h, k d" 4.
Dans les épreuves écrites : des questions faisant intervenir les seuils de signification usuels (1 %, 5 %, 10 %) seront posées.
La calculatrice à écran graphique peut être utilisée pour trouver la valeur du Ç2 lorsque
des données brutes sont présentées.
Non exigé : la correction de Yates.
Les valeurs de p seront utilisées dans les cas des
tests unilatéraux à gauche et à droite, mais pas
dans les cas des tests bilatéraux.
Formulaire :
6.7.Coefficient de corrélation de Pearson6.8.Équation de la droite de régression pour y en fonction de x6.9.Le test statistique du Ç2
Séries statistiques à deux variables
Position du problème
Souvent, nous sommes amenés à observer et à étudier en même temps deux caractères des éléments dune série statistique et à nous demander si ces caractères sont « liés » et comment ils le sont.
P.ex. on peut sintéresser simultanément
au revenu moyen et à la durée de vie moyenne dans plusieurs pays ;
à la consommation de tabac et à la fréquence dun certain type de cancer dans plusieurs pays ;
lâge des jeunes de 10 à 18 ans et largent de poche par mois dont ils disposent ;
lannée et la population mondiale etc.
Prenons comme 1er exemple les notes obtenues en maths par les 20 élèves dune classe de 6e au 1er trimestre, puis à la fin de lannée. Notons xi la note du 1er trimestre obtenue par lélève i, yi la note à la fin de lannée obtenue par le même élève.
Élève
x
y
1
28
26
2
36
40
3
13
14
4
42
40
5
32
29
6
11
11
7
37
36
8
46
43
9
38
33
10
32
31
11
42
46
12
37
37
13
34
39
14
31
29
15
30
28
16
26
30
17
36
31
18
30
27
19
33
30
20
39
39
Dans un repère nous construisons tous les points Mi de coordonnée (xi, yi) .
Lensemble de tous les points ainsi obtenus est appelé un nuage de points. On parle aussi dun diagramme de dispersion. Si les points obtenus sont totalement dispersés, on dira que les variables x et y sont indépendantes.
Pour cet exemple, on a cependant limpression que les variables X et Y sont liées dans le sens que, si X devient plus grand, il y a une tendance à ce que Y devienne également plus grand. On parle dune corrélation positive entre les variables X et Y.
Un des objectifs de ce chapitre est de trouver une mesure pour cette corrélation, qui peut être plus ou moins forte, et qui peut également être négative. Si on regarde le nuage de points de plus près, on peut penser que les points sont pour la plupart disposés autour dune certaine droite. Un autre objectif de ce chapitre sera de trouver la droite qui ajuste le mieux lensemble des données (xi, yi). On parle de lajustement linéaire, la droite en question est appelée droite de régression linéaire. Cet ajustement graphique peut paraître un peu arbitraire. Il faudra préciser par le calcul une méthode qui permet de trouver la « meilleure » droite.Loutil « trendline » du logiciel Excel fournit une droite de régression linéaire ainsi que son équation réduite de la forme Y = mX + c, ici : Y = 0,9523X + 0,8584.
A laide de cette équation, le professeur de maths peut essayer de prédire une note finale Y pour un élève à partir de la note X obtenue au 1er trimestre (peut-être lannée daprès dans une autre classe):
P.ex. pour X = 30 : Y = 0,9523·30 + 0,8584 = 29,42
X = 45 : Y = 0,9523·45 + 0,8584 = 43,71
Bien sûr léquation de la droite de régression ne traduit quune tendance générale (et encore seulement pour léchantillon considéré) ; pour un élève en particulier, le résultat en fin dannée peut ne pas du tout correspondre à la valeur attendue selon cette méthode statistique.
Diagrammes de dispersion . Notion de corrélation.
Sur une population donnée, on étudie deux caractères.
Pour chacun des n individus de cette population, notons xi et yi les valeurs prises par chacun de ces caractères, et présentons les données à laide de la série statistique à deux variable suivante :
Valeur xix1x2
xnValeur yiy1y2
yn
Définition : Dans un repère orthogonal, lensemble des points Mi de coordonnées (xi ; yi) (avec 1 ( i ( n) est appelé le nuage de points ou diagramme de dispersion associé à cette série statistique à deux variables.
Le nuage de points peut prendre des allures différentes et traduire une relation plus ou moins importante entre les variables x et y. Il peut avoir une forme allongée, curviligne ou très dispersée.
Entre les variables x et y il existe une relation linéaire si les données peuvent être ajustées par une droite. Souvent, les données sont mieux ajustées par une autre courbe, par exemple une parabole ou ou courbe exponentielle. Notre étude va cependant se limiter à lajustement linéaire.
Dites pour chacun des nuages de points
sil y a un lien positif, un lien négatif, ou pas de lien entre les variables
si la relation est linéaire ou autre
le degré du lien (zéro, faible, moyen, fort)
On a regroupé les résultats pour des tests en math et en sciences pour certains étudiants :
étudiant
A
B
C
D
E
F
G
H
I
J
Math
64
67
69
70
73
74
77
82
84
85
Sciences
68
73
68
75
78
73
77
84
86
89
a) Donnez le diagramme de dispersion.
b) Décrivez la direction, la forme et le degré (lampleur) de la relation entre les résultats en science et en math.
Le nombre des accidents de travail dans une certaine entreprise a évolué de la manière suivante entre 1994 et 2003 :
année1994199519961997199819992000200120022002Nombre des accidents16613112316216013091826553Commentez le travail réalisé par la direction de lentreprise au niveau de la sécurité.
Donnez le nuage de points et utilisez-le pour commenter les données.
Ajustement linéaire
Lorsque les points du nuage paraissent presque alignés, on peut chercher une relation de la forme y = mx + c qui exprime de façon approchée y en fonction de x, autrement dit, une fonction affine f telle que légalité y = f(x) sajuste au mieux avec les données. Graphiquement, cela signifie quon cherche une droite qui passe au plus près de tous les points du nuage.
Une telle relation permettrait notamment de faire des prévisions.
Premère approche : à main libre et avec le point moyen
Définition : Le point G de coordonnées ( eq \x\to(x) ; eq \x\to(y)) , avec
eq \x\to(x) = eq \s\do1(\f(1;n)) (x1 + x2 +
+ xn) = eq \s\do1(\f(1;n)) eq \i\su(i = 1;n; ) xi et eq \x\to(y) = eq \s\do1(\f(1;n)) (y1 + y2 +
+ yn) = eq \s\do1(\f(1;n)) eq \i\su(i = 1;n; ) yi
est appelé le point moyen du nuage de points associé à cette série statistique à deux variables.
G est donc le point qui a pour abscisse la moyenne arithmétique des abscisses, et pour ordonnée la moyenne arithmétique des ordonnées des points du nuage.
Dans une première approche, on peut essayer de tracer à main libre une droite qui ajuste bien les données ; on exige cependant que la droite doit passer par le point moyen G( eq \x\to(x) ; eq \x\to(y)), qui est en quelque sorte le « centre de gravité » du nuage de points.
Exemple :
Le tableau ci-dessous donne la consommation quotidienne Y en fuel d'une chaudière (en litres) en fonction des relevés de température extérieure X.
x (en degrés C)-6-40510y (en litres)4036352316On cherche un lien (s'il existe) entre la température extérieure x et la consommation quotidienne de fuel y.
Point moyen d'un nuage : G( eq \x\to(x) ; eq \x\to(y)) avec eq \x\to(x) = 1/5 · (x1 +
+ x5) = 1 et eq \x\to(y) = 1/5· (y1 +
+ y5) = 30
( G(1 ;30)
Après avoir tracé par le point G une droite qui vous semble être la meilleure :
Donnez une équation de cette droite
Donnez une estimation pour la consommation de fuel par jours si la température extérieure est
-10o C
15o C
La méthode de Mayer ou la méthode des moyennes discontinues
(ne figure pas au programme)
Une droite étant déterminée quand on connaît deux de ses points, on peut chercher à déduire à partir des données deux points qui permettront dajuster une droite à ces données. Pour cela, on divise la série statistique en deux groupes de même importance. Par exemple, on met dans le premier groupe la première moitié de leffectif (aprés avoir ordonné les valeurs de x), et dans le deuxième groupe la seconde moitié. Pour un nombre impair de données, on prend un point (du milieu) dans les deux groupes. Pour chaque groupe, on détermine le point moyen. La droite qui passe par les deux points moyens est choisie comme droite dajustement.
Exemple : Le tableau suivant donne le chiffre d'affaire réalisé au cours des 6 derniers mois par un site de vente en ligne en fonction du nombre de commandes reçues.
nombre de commandes xi6 4008 3509 1259 60010 05012 000chiffre d'affaire mensuel yi (¬ )250 000320 000335 000350 000370 000400 000
Représentation du nuage de points
Calcul des coordonnées des points moyens G1 et G2 :
On partage le nuage de points en deux groupes de même importance suivant les valeurs croissantes de xi, et on calcule les coordonnées des points moyens G1 et G2 de chaque groupe de points.
Coordonnées de G1 EMBED Equation.3 avec EMBED Equation.3 = moyenne des valeurs x du premier groupe et EMBED Equation.3 = moyenne des valeurs y du premier groupe.
EMBED Equation.3 ( 7 960 EMBED Equation.3 ( 310 650
Donc G1 (7 960 ; 310 650)
Coordonnées de G2 EMBED Equation.3 avec EMBED Equation.3 = moyenne des valeurs x du deuxième groupe et EMBED Equation.3 = moyenne des valeurs y du deuxième groupe.
EMBED Equation.3 (10 550 EMBED Equation.3 ( 373 330
Donc G2 (10 550 ; 373 000)
On trace la droite d'ajustement qui passe par les deux points G1 et G2.
Equation de la droite d'ajustement affine :
L'équation de la droite d'ajustement est de la forme y = m x + c
Rappel : toute droite passant par les points A (xA ; yA) et B (xB ; yB) a pour équation
y = y yA = m·(x-xA) avec m = EMBED Equation.3
Dans le cas précédent, la droite passant par les points G1 (7 960 ; 310 650) et G2 (10 550 ; 373 000), a pour coefficient directeur m = EMBED Equation.3 ( 24,073
La droite d'ajustement affine a donc pour équation :
y 310650 = 24,073·(x-7960) ( y = 24,073 x + 119 026
Dans le tableau ci-dessous, on donne la taille moyenne (en cm) des nouveaux nés en fonction du nombre de l'âge gestationnel (en semaines). Données 1990
Âge gestationnel
(semaines)30313233343536373839404142434445Taille (cm)47,548,54949,75050,550,851,251,551,852,252,552,85353,553,7
Représenter le nuage de points dans un repère orthogonal en prenant comme unités :
en abscisse : 1 cm pour 1 semaine (commencer la graduation à 20 semaines)
en ordonnée : 2 cm par unité (commencer la graduation à 45 cm)
On se propose de tracer la droite d'ajustement de ce nuage de points.
Calculer les coordonnées des points moyens G1 et G2
Tracer la droite d'ajustement passant par les points G1 et G2.
Déterminer l'équation de la droite d'ajustement.
Dans le tableau ci-dessous, on donne la pluviométrie moyenne mensuelle sur le département de la Meuse au cours des 30 dernières années.
MoisJanvFevMarAvrMaiJuinJuilAoûSeptOctNovDecPluviométrie
(mm)10282856975828168809797124
Représenter le nuage de points dans un repère orthogonal en prenant comme unités :
en abscisse : 1 cm pour un mois (numéroter les mois de 1 à 12).
en ordonnée : 1 cm pour 10 mm de pluie.
On se propose de tracer la droite d'ajustement de ce nuage de points.
Calculer les coordonnées des points moyens G1 et G2 correspondant respectivement au premier et au second semestre.
Tracer la droite d'ajustement passant par les points G1 et G2.
Déterminer l'équation de la droite d'ajustement.
Commentez les résultats trouvés.
La méthode des moindres carrés droite de régression
Imaginons que deux élèves aient tracé, à tâtons, des droites d'ajustement qui passent par le point moyen G. N'y en a-t-il pas une meilleure que l'autre ? Comment "mesurer" la qualité de l'ajustement ? Une méthode consiste à considérer la somme des résidus associée à une droite d'équation y = mx+c.
Pour mesurer la qualité de la droite dajustement déquation y = mx + c, on considère, pour chaque valeur xi, la différence entre la valeur observée, cest à dire yi, et la valeur calculée par la formule, cest à dire EMBED Equation.DSMT4 = mxi + c. On souhaite que la somme des carrés de toutes les différences : yi EMBED Equation.DSMT4 appelées erreurs, ou résidus, ou écarts verticaux, ou perturbations, soit la plus petite possible.
Cette méthode, qui est la plus couramment employée, dite méthode des moindres carrés, consiste à choisir m et c de façon que la somme des carrés des résidus soit la plus petite possible.
On peut montrer quil existe une droite unique qui rend minimale la somme des carrés des résidus. Cette droite est appelée droite de régression de y par rapport à x.
Elle passe toujours par le point moyen EMBED Equation.3 .
Théorème (admis):
Il existe une droite unique associée au nuage de points (xi ; yi), avec i = 1, 2,
, n , telle que la somme S des carrés des résidus soit minimale.
( Cette droite, appelée droite de régression de y par rapport à x, passe par le point moyen G( eq \x\to(x), eq \x\to(y)) du nuage.
( Elle a pour équation y - eq \x\to(y)= m·(x- eq \x\to(x)) avec m = EMBED Equation.3
Pour calculer la pente m de la droite :
EMBED Equation.3 est la variance de la variable x : EMBED Equation.3
Sxy est appelée la covariance de x et y : Sxy = eq \s\do1(\f(1;n)) eq \i\su(i = 1;n; )(xi eq \x\to(x))(yi eq \x\to(y)) = eq \b( eq \s\do1(\f(1;n)) eq \i\su(i = 1;n; )xi yi) eq \x\to(x) eq \x\to(y).
La seconde expression est plus commode pour les calculs à la main.
Exemple: Utilisez les formules pour calculer m et c pour la droite de régression passant par les points (1,3), (3,5) et (5,6). Vérifiez vos résultats
a) à laide de la TI 84 b) avec Excel
Sxy = eq \b( eq \s\do1(\f(1;n)) eq \i\su(i = 1;n; )xi yi) eq \x\to(x) eq \x\to(y) = 1/3 ( 48 3 ( 14/3 = 2 EMBED Equation.3 = 1/3 ( 35 - 32 = 8/3
doù : m = EMBED Equation.3
et léquation de la droite devient :
EMBED Equation.DSMT4
Avec Excel :
x
y
1
3
3
5
5
6
Avec la TI 84 :
Avec Geogebra
Avec Sinequanon :
Le tableau suivant donne lévolution du prix dun paquet de café en francs au 31 décembre de lannée 1900 + x.
Rang xi de lannée70808894969899100Prix yi en francs35,51015,519,319,42021
Représenter le nuage de points associé à cette série statistique (xi; yi).
Déterminer par la méthode des moindres carrés une équation de la droite dajustement affine de y en x.
Tracer cette droite sur le graphique.
En supposant que ce modèle mathématique reste valable jusquà lan 2002, donner une estimation du prix, en euros, arrondi au centime, dun paquet de café au 31/12/2002. On rappelle quun euro vaut 6,55957 francs.
Le tableau suivant donne les pressions sanguines (pression systolique) mesurées auprès de huit femmes et leurs âges respectifs :
Âge (x)6042687242365549Pression sanguine (y)155140152160125118155145
Représentez les données par un nuage de points
Déterminez la droite de régression de y par rapport à x et ajoutez-là sur le diagramme.
Utilisez la droite dajustement pour déterminer la pression sanguine pour une femme
âgée de 45 ans ii. âgée de 85 ans.
Quelle est la différence dans la façon dutiliser la droite dajustement en i) et ii) ?
La direction commerciale dune entreprise industrielle a augmenté régulièrement ses dépenses publicitaires pendant plusieurs années et voudrait y comparer la progression de son chiffre daffaires. Elle dispose pour cela des données suivantes :
AnnéeDépenses publicitaires x
(en francs)Chiffres daffaires y
(en milliers de francs)1960
1961
1962
1963
1964
1965
196673200
74700
76200
77700
79200
80700
8220035261
35771
36791
37301
37556
38066
38831 Tracez le nuage de points correspondant. En déduire la possibilité dun ajustement linéaire.
Cherchez la droite de régression de y par rapport à x.
Quel devrait être, daprès lajustement trouvé, le montant des dépenses publicitaires pour atteindre un chiffre daffaires de 45000 francs ?
Alignement de points et lien de causalité
On considère le tableau suivant :
ti : Année1995199619971998199920002001xi : Nombre dinscrits dans un club de belote48535762687377yi : Nombre de hamburgers vendus dans un restaurant de Moscou700074508000850090509550100001. Placer dans un repère le nuage de points (ti ; xi) et constater que sa forme allongée justifie un ajustement affine.
2. Placer dans un autre repère le nuage de points (ti ; yi) et constater que sa forme allongée justifie un ajustement affine.
3. a) placer dans un troisième repère le nuage de points (xi ; yi) et constater que sa forme allongée justifie un ajustement affine.
b) Vérifier que la droite de régression de y en x admet comme équation y = 103x + 2057 et tracer cette droite. Commentez le résultat trouvé.
Comparaison de deux ajustements affines : droite de Mayer et droite de régression
Le tableau suivant donne le PNB (en euros, par habitants) ainsi que le nombre d'hôpitaux (pour 1 million
d'habitants) dans quelques pays européens.
Représenter le nuage de points associé à la série statistique (X, Y).
Unités graphiques : ·ð ðEn abscisses : 1 cm pour 1000 euros. ·ð ðEn ordonnées : 1cm pour 200 hôpitaux.
On prendra pour origine le point (5000 ; 600).
Déterminer les coordonnées du point moyen G de ce nuage de points. Placer G sur le graphique.
Un premier ajustement affine : la droite de Mayer
Dans cette question, on considère deux sous-nuages : celui constitué des points correspondants aux pays P1,
P2, P3 et P4 et celui constitué des points correspondants aux pays P5, P6, P7 et P8.
Calculer les coordonnées des points moyens G1 et G2 des deux sous-nuages. Placer les points G1 et G2 sur le graphique.
Démontrer qu'une équation de la droite (G1G2) sous la forme y =ð ðmx +ð ðp est :
y =ð ð0,15x -ð ð199 (On détaillera les calculs). (On arrondira m à 10-ð2 près et p à l'unité près)
La droite (G1G2) s'appelle la "droite de Mayer". Représenter cette droite sur le graphique.
Un deuxième ajustement affine : la droite de régression
Déterminer une équation de la droite de régression de y en x par la méthode des moindres carrés. On notera D cette droite. Représenter D sur la graphique.
Laquelle des deux droites (G1G2) et D réalise-t-elle le meilleur ajustement affine?
Estimations. À l'aide de l'équation de la droite (D) (ou à défaut celle de (G1G2)), et en détaillant les calculs, répondre aux deux questions suivantes :
Un pays a un PNB de 23400 ¬ par habitant. Quelle estimation peut-on faire du nombre d'hôpitaux (par million d'habitants) dans ce pays ? (On arrondira à l'unité près)
Un pays a 3500 hôpitaux par million d'habitants. À combien peut-on estimer son PNB (en ¬ , par habitants) ? (On arrondira à l'euro près)
Cherchez la droite de régression de y par rapport à x sachant que
On donne :
Trouvez : i. La moyenne de X ii. La moyenne de Y
Trouvez : i. Lécart-type de X ii. Lécart-type de Y.
Trouvez la covariance de X et Y.
Trouvez la droite de régression de y par rapport à X.
Le prix de vente des terrains à bâtir dans la même commune rurale est donné par le tableau suivant :
Année1980198519871990199519972000Rang de lannée xi05710151720Prix du m² en francs yi58,860,962,167,571,77373,81. Quelle est, en pourcentage, laugmentation du prix du m² entre 1980 et 2000 ?
2. Représentez le nuage de points Mi(xi ; yi) dans un repère orthogonal où 5 cm représentent 10 ans en abscisse, 5 cm représentent 10 francs en ordonnées.
3. Déterminez le point moyen G du nuage et placez-le sur le graphique.
4. On considère que la position des points sur le graphique justifie un ajustement affine par la méthode des moindres carrés. Ecrire une équation de la droite dajustement affine de y en x, notée (D) [les coefficients sont arrondis à 0,01]. Tracer (D).
5. Estimer à 1 millier de francs près le prix dun terrain de 1500m² en 2003.
Corrélation
Même si on arrive (presque) toujours à déterminer une droite dajustement pour un nuage de points (xi, yi), les variables x et y peuvent être correlées à des degrés très différents, et la droite trouvée ne sajuste pas nécessairement bien aux données. Un nombre qui décrit la validité de la droite dajustement et qui mesure le degré de dépendance linéaire entre les variables x et y est le coefficient de corrélation (de Pearson).
Définition :
Le coefficient de corrélation linéaire de Pearson r est le nombre EMBED Equation.3 où
Autre calcul : EMBED Equation.3 Remarque : La notation BI est plutôt Sxy, Sx, Sy .
Propriétés du coefficient de corrélation linéaire :
-1 d" r d" 1 r est toujours compris entre -1 et +1.
Si r > 0 : entre x et y il y a une corrélation positive (dépendance linéaire positive).
Si r .H.I.J.K.....×.öíáÑ·«·Â·thTA$h$¬h$¬CJaJmHnHsHtH'h$¬h$¬>*CJaJmHnHsHtHh$¬h$¬CJ]aJh$¬hrnCJ]aJh$¬hER6CJ]aJh$¬hERCJ]aJ jh$¬hERCJU]aJh$¬hER6CJaJh$¬hERCJaJjh$¬hERCJUaJh$¬hERCJ\aJmHsHh}h4°CJ\aJhrnCJ\aJh4°CJ\aJ×.Ù./
///0/1/2/n/¯/°/±/Ø/Ù/Û/Ü/Ý/ô/ö/ø/ù/0000 0ê×Ç×ê×Ç´×Çê×Çש¢{k\QEQ\Qh$¬h&RH6CJaJh$¬h&RHCJaJjh$¬h&RHCJUaJh$¬h&RHCJ\aJmHsH$h&RHh&RHCJaJmHnHsHtH'h&RHh&RHCJ\aJmHnHsHtHh&RHhrnjÍh&RHh6~U$h