La statistique descriptive
part of the document
LA STATISTIQUE DESCRIPTIVE
Introduction.
Les concepts et le vocabulaire de base.
Les échelles de mesure.
Les tableaux et graphiques.
Les mesures de tendance centrale.
Les mesures de position.
Les mesures de dispersion.
Module technologique.
Exercices.
Muhammad Ibn Mussa Al Khawarizmi, mathématicien, philosophe perse né à Khawa et mort à Bagdad en 850. Il publia de grands ouvrages en astronomie, en mathématiques par exemple le fameux livre ``Al jabr wal muqabalah`` qui signifie ``lalgèbre par la preuve``. Il est linventeur des algorithmes chers aux informaticiens. Il est le premier à parler de laléatoire dans son manuscrit ``Azzahr`` qui deviendra plus tard ``Hasard`` qui signifie chance.
La statistique descriptive
Introduction.
La statistique est une branche des mathématiques qui sintéresse à létude des phénomènes aléatoires, en contre opposé aux mathématiques déterministes plus familières aux étudiant(e)s, que sont le calcul différentiel, calcul intégral, géométrie, algèbre,
Le mot statistique dont le nom est dérivé de ``state en référence à tout ce qui est étatique, est relativement nouveau, puisquil a été introduit en Allemagne au XVIIème siècle. Par contre la pratique de la statistique est plus ancienne, elle fut utile aux grands empires en Mésopotamie, dans lÉgypte ancienne, ainsi que chez les romains et les empires indiens et chinois. Il sagissait de bien connaître la population pour administrer sa répartition sur les territoires, collecter les impôts et gérer les aspects militaires.
De nos jours, on ne peut trouver un domaine qui peut être compris, analysé sans les méthodes statistiques. Que ce soit dans le domaine des sciences sociales, sciences de la vie ou sciences de lingénieur, les méthodes statistiques sont omniprésentes pour mettre de lordre dans le protocole de travail, elles permettent quand on est devant un chaos apparent des données, de déterminer par où commencer et quelles sont les étapes à suivre selon le contexte pour analyser ces données.
La statistique grosso-modo est formée de trois grandes classes : la statistique descriptive, la statistique inférentielle et la nouvelle branche quest la statistique exploratrice. Ce chapitre est consacré à la statistique descriptive. La statistique descriptive comme son nom lindique, se propose de décrire les données, de les classer et de les présenter sous des formes claires et compréhensibles. Elle est à la base par exemple de toute organisation du système dinformation dune entreprise : statistiques de la production ou des ventes, statistiques financières, statistiques des ressources humaines
Elle est aussi une importante composante en sciences humaines de ce quon appelle les méthodes quantitatives. On va commencer par définir le lexique quon va utiliser tout le long de ce chapitre et même de ce livre.
: Les concepts et le vocabulaire de base.
Au début de tout travail statistique, il faut cerner avec précision sur quoi va porter létude. Lensemble de tous les éléments sur lesquels porte létude sappelle population. Une population peut être un ensemble dêtres vivants (humains, oiseaux, poissons, bactéries,
) ou un ensemble de choses (maisons, voitures, rivières,
) ou un ensemble de faits (pannes, accidents, divorces,
). Chaque élément dune population sappelle individu ou unité statistique. Une population peut être finie (population dun pays) ou presque infinie (population des insectes), on considère généralement les populations comme finies mêmes si elles sont très grandes. Le nombre dunités statistiques dans une population sappelle taille de la population et on le note par N.
Quand une étude porte sur toute la population, on dit quon fait un recensement. Mais pour des raisons techniques ou économiques, il nest généralement pas possible de collecter des données sur tous les éléments dune population. Alors on se contente dextraire une partie de la population appelée échantillon et restreindre létude à cet échantillon. On verra dans le chapitre V, quil existe des méthodes spécifiques permettant de sassurer que léchantillon soit représentatif de la population, c'est-à-dire une réplique en miniature de ce qui se passe dans la population. Pour linstant, on suppose quon dispose dun échantillon sur lequel porte létude (sans savoir comment il a été extrait). Le nombre déléments dans léchantillon sappelle taille de léchantillon et sera noté par n.
On appelle variable tout caractère observé ou mesuré sur chacun des éléments de léchantillon. On va réserver les dernières lettres de lalphabet pour noter les variables : X, Y, Z, U...
Les différentes valeurs que prend une variable sappellent modalités. Afin que le classement dune unité statistique soit toujours possible sans ambiguïté, les différentes modalités doivent être à la fois incompatibles (un individu ne peut avoir plusieurs modalités à la fois) et exhaustives (tous les cas doivent être prévus). Il existe deux types de variables : Les variables qualitatives et les variables quantitatives. Une variable est dite qualitative si elle ne peut être mesurée ou quantifiée, mais peut être classée en catégories comme le sexe, la race, lespèce, le niveau scolaire,
. Une variable est de type quantitatif si elle peut être mesurée ou quantifiée, comme le poids, la hauteur, le revenu, le nombre denfants, le nombre de pannes.
Les variables qualitatives sont constituées de deux sous-classes :
Les variables qualitatives nominales : ce sont celles dont les modalités ne peuvent quêtre constatées, nommées.
Exemple : Le sexe (masculin, féminin), la nationalité (Canadienne, Française, Marocaine,..), les cours suivis durant une session (mathématiques, anglais, philosophie,..)
Les variables qualitatives ordinales. ce sont les variables qualitatives dont les modalités appellent naturellement un ordre dans leur rangement. Exemple : Le niveau scolaire (primaire, secondaire, collégial, universitaire), le comportement lors dune réception (incongru, correct, parfait,..),
Les variables quantitatives sont elles aussi subdivisées en deux sous-classes :
Les variables quantitatives discrètes : ce sont celles dont les modalités sont des valeurs isolées.
Exemple : Le nombre de pannes, le nombre daccidents, le nombre denfants,
Les variables quantitatives continues, ce sont celles dont les modalités forment un continuum. Ce sont celles qui peuvent prendre nimporte quelle valeur dans un intervalle raisonnable.
Exemple : La taille, le poids, le revenu,
Les échelles de mesures.
Pour les variables qualitatives, il existe deux échelles de mesure. Léchelle nominale qui sadresse aux variables qualitatives nominales, elle ne sert quà coller une étiquette aux unités statistiques, elle ne les classe pas sur une échelle à une dimension.
Exemple 1.3.1 :
X= sexe, alors X est une variable qualitative nominale et son échelle est nominale.
Y=le numéro du dossard dun joueur de hockey. Même si Y prend des valeurs numériques, ce nest quune variable nominale et son échelle est nominale. Car on peut tout aussi bien mettre des lettres sur leur dossard ou des dessins.
Lautre échelle est léchelle ordinale et sadresse aux variables qualitatives ordinales, on lappelle comme cela car il y a un ordre entre ses modalités.
Exemple 1.3.2 :
X= le niveau scolaire dune personne adulte, alors ses modalités peuvent être : primaire, secondaire, collégial, universitaire. Il y a un ordre chronologique entre ces modalités.
Y= la note finale obtenue dans un cours de statistique, ses modalités seront : F, E, D, C, B, A ou A+. Il y a un ordre de mérite entre ces modalités.
Pour les variables quantitatives, il existe aussi deux types déchelles, la première échelle est léchelle dintervalle. On lappelle comme ça car la seule opération possible est la différence. On reconnaît une échelle dintervalle par labsence du zéro absolu (c'est-à-dire que si X=0, cela ne veut pas dire absence de ce quon mesure).
Exemple 1.3.3 :
T= la température en degrés Celsius. Le jour où T=0 QUOTE , ça ne veut pas dire absence de température. Si on considère deux journées où la température est respectivement égale à 10 et 30 degrés, ça veut seulement dire quil y a un écart de 20 degrés entre ces deux journées. Si on prend deux sots deau où la température est respectivement égale à 35 et 45 degrés, si on les mélange, on ne va pas obtenir une eau chauffée à 80 degrés. Alors léchelle de cette variable est une échelle dintervalle.
X=la date de naissance, si on est en 2010 et quon considère une personne née en 1950 et une autre née en 1980, tout ce quon peut dire est quil y a une différence dâge de 30 ans entre elles. On ne peut pas dire que lune est deux fois plus âgée que lautre, car lannée prochaine ce ne serait plus vrai. Alors léchelle de cette variable est une échelle dintervalle.
Lautre échelle est léchelle de rapports. Cest léchelle la plus maniable, la plus riche. Elle admet un zéro absolu, c'est-à-dire si la variable est nulle, cela signifie labsence de ce quon mesure. On peut faire toutes les opérations algébriques avec une telle échelle.
Exemple : 1.3.4 :
X=le revenu familial annuel (en dollars), si X=0 cela veut dire quil ny a pas eu de revenu. Si on prend deux familles dont le revenu respectif est de 30 000 et 120 000 dollars, on peut dire quil y a un écart de 90 000 dollars entre ces deux revenus, on peut aussi dire que la deuxième famille gagne 4 fois plus que la première. Si on additionne ces deux revenus, on aura un revenu global de 150 000 dollars. Alors léchelle de cette variable est une échelle de rapports.
Y=le nombre denfants dans un ménage. Si Y=0 cela veut dire que cette famille na pas denfant. On peut faire toutes les opérations algébriques avec les modalités de cette variable, donc son échelle est une échelle de rapports.
Les tableaux et graphiques.
Dans ce paragraphe on va détailler comment résumer linformation contenue dans une série de données soit par des tableaux ou des graphiques. On va commencer par les variables qualitatives.
Cas de variables qualitatives.
On va considérer deux exemples où on a des variables qualitatives observées sur un échantillon et suivre le traitement possible de ces données.
Exemple 1.4.1.1 : On a pris un échantillon de 50 achats de boissons non-alcoolisées achetées dans une grande surface, en notant par :
CC=Coca-Cola; S=Sprite; CL=Coke-Light; P=Perrier; PC=Pepsi-Cola. On a obtenu les résultats suivants.
CC S PC CL CC CC PC CL CC CL CC CC CC CL PC CC
CC P P S CC CL PC CL PC CC PC PC CC PC CC CC PC
P PC PC S CC CC CC S P CL P PC CC PC S CC CL
Alors ici la variable est X=Boisson non-alcoolisée, qui est une variable qualitative nominale. Pour présenter ces données sous forme de tableau, on dresse un tableau, dans la première colonne on énumère les cinq modalités de la variable, dans la seconde colonne on donne la fréquence absolue ou leffectif de chacune des modalités (c'est-à-dire le nombre de fois que cette modalité se répète dans léchantillon) et dans la troisième colonne, on donne la fréquence relative de chacune des modalités. La fréquence relative dune modalité étant égale à sa fréquence absolue divisée par la taille de léchantillon. Ce qui donne :
Tableau des fréquences des boissons non-alcooliséesX=BoissonFréquences absoluesFréquences relativesCC190,38CL80,16PC130,26P50,10S50,10Totaln=501Source : données fictives.
Ce tableau sappelle tableau de fréquences de la variable.
Remarque : Pour une présentation complète des tableaux et graphiques, on doit mettre le titre en haut et la source des données en bas.
En ce qui concerne la représentation graphique, on va donner deux graphiques qui résument la même information contenue dans le tableau des fréquences.
Le diagramme à barres (horizontales ou verticales). Où on met sur un axe les modalités de la variable et sur lautre axe les fréquences absolues ou les fréquences relatives.
Remarque : Les largeurs des barres doivent être les mêmes pour une belle esthétique du graphique, ainsi que la distance entre les bandes. On peut aussi ajouter les fréquences absolues au dessus des bandes.
Le deuxième graphique quon peut faire est le diagramme à secteurs (ou circulaire) qui est une sorte de tarte où chaque modalité occupe une partie qui reflète sa fréquence relative.
Exemple 1.4.1.2 : Lors dune enquête de satisfaction de la clientèle, une compagnie de courtage a demandé à un échantillon de 60 clients dindiquer leur degré de satisfaction vis-à-vis de leur conseiller financier, sur une échelle de 1 à 7, le 1 correspondant à et le 7 correspondant à >. On a obtenu les résultats suivants :
5 7 6 6 7 5 5 7 3 6 7 7 6 6 6 5 5 6 7 7
6 6 4 4 7 6 7 6 7 6 5 7 5 7 6 4 7 5 7 6
6 5 3 7 7 6 6 6 6 5 5 6 6 7 7 5 6 6 6 6
Ici la variable, ``degré de satisfaction`` est une variable qualitative ordinale. On peut résumer linformation contenue dans ces données sous forme dun tableau de fréquences ce qui donne :
Tableau des fréquences du degré de satisfaction des clients.Degré de satisfactionFréquences absoluesFréquences relatives100,0000200,0000320,0333430,05005120,20006250,41677180,3000Totaln=601,0000Source : Données fictives.
En ce qui concerne la représentation graphique, les mêmes graphiques quon a utilisés pour une variable qualitative nominale font laffaire. Ce qui donne :
1.4.2 Cas de variables quantitatives.
Le traitement des variables quantitatives discrètes étant différent de celui des variables quantitatives continues, on va donc réserver un sous paragraphe à chacune delles.
1.4.2.1 : Cas des variables quantitatives discrètes.
Soit X une variable quantitative discrète dont le nombre de modalités nest pas trop grand. Alors on peut dresser un tableau des fréquences comme celui utilisé pour les variables qualitatives auquel on peut ajouter une colonne supplémentaire où on met les fréquences relatives cumulées au fur et à mesure quon ajoute une modalité de la variable. En ce qui concerne la représentation graphique, un seul graphique sassocie avec les variables quantitatives discrètes : le diagramme à bâtons.
Exemple 1.4.2.1.1 : Un inspecteur en contrôle de qualité a extrait de sa base de données, un échantillon de 40 semaines où il a noté X, le nombre daccidents de travail enregistrés par semaine. Il a obtenu les résultats suivants :
2 0 4 2 2 1 3 2 0 5 4 3 2 4 5 6 6 4 2 0
3 4 4 2 6 2 4 3 0 4 3 4 3 3 5 5 4 2 2 1
On peut donc dresser le tableau des fréquences suivant.
Tableau des fréquences du nombre daccidents par semaineLe nombre daccidents par semaine.Fréquences absoluesFréquences relativesFréquences relatives cumulées040,1000,100120,0500,1502100,2500,400370,1750,5754100,2500,825540,1000,925630,0751,000Totaln=401,000
Quant au diagramme à bâtons, on obtient quelque chose comme :
EMBED MtbGraph.Document.16
Remarque : Les bâtons ne doivent pas avoir dépaisseur, car la variable prend exactement les valeurs 0, 1, 2,
On peut ajouter les effectifs ou les fréquences relatives sur les bâtons.
1.4.2.2 : Cas de variables quantitatives continues.
Considérons maintenant un échantillon de données provenant dune variable quantitative continue ou discrète avec un grand nombre de modalités. Il est donc inconcevable de dresser un tableau où on énumère les modalités dune telle variable, il serait non analysable. Il faut donc grouper ces données en classes de valeurs. Deux questions se posent alors :
Combien de classes faut-il former ?
Quelles seront les largeurs de chacune des classes ?
La réponse à la première question, dépend de la taille de léchantillon, le nombre de classe à former est donné par la formule de Sturges suivante :
QUOTE . Ainsi, par exemple, si n=150, il faut former QUOTE (on arrondit à lentier immédiatement supérieur). Une fois quon sait combien de classes à former. On essaie de former des classes de même amplitude (largeur) et cette amplitude sera égale à
QUOTE .
On arrondit cette amplitude selon les données pour avoir des bornes de classes faciles à manipuler.
Exemple 1.4.2.2.1 : Soit X, les recettes quotidiennes(en dollars) dun petit magasin. On a sélectionné un échantillon de taille n=40 jours au hasard qui ont donné les résultats suivants :
16,00 58,50 68,20 78,00 79,45 142,20 145,3 186,70 209,05 216,75
219,70 247,75 249,10 256,00 257,15 262,35 268,60 269,60 270,15 284,45
319,00 332,00 343,29 350,75 354,90 372,60 383,20 389,20 404,55 420,20
428,50 432,40 444,60 446,80 456,10 458,10 493,95 511,95 521,05 621,35
Le nombre de classe à former est QUOTE damplitude chacune égale à QUOTE . Cette amplitude est arrondie à 90. Ce qui donne le tableau des fréquences suivant, où les classes sont des intervalles fermés à gauche et ouverts à droite sauf le dernier qui est un intervalle fermé des deux côtés.
X=les recettesFréquences absoluesFréquences relativesFréquences relatives cumulées[10 ; 100[50,1250,125[100 ;190[30,0750,200[190 ;280[110,2750,475[280 ;370[60,1500,625[370 ;460[110,2750,900[460 ;550[30,0750,975[550 ;640]10,0251,000Totaln=401,000
Quand aux graphiques, on va ici préviligier trois graphiques pour les variables quantitatives continues.
Lhistogramme, qui est une suite de rectangles juxtaposés les uns aux autres dressés au-dessus de chacune des classes, dont la largeur est égale à lamplitude de la classe (prise comme unité de mesure) et dont la surface reflète la fréquence relative de la classe quil représente.
Le polygone des fréquences, qui consiste à joindre le milieux des sommets des rectangles dun histogramme par une ligne en zig-zag et cette ligne se ferme en ajoutant aux deux extrémités deux classes fictives de même amplitude que les autres, comme ça la surface délimitée par lhistogramme est identique à celle délimitée par le polygone des fréquences. Le polygone de fréquences est très utile quand on veut comparer le comportement de la même variable mesurée sur plusieurs groupes (on peut penser à comparer le revenu des hommes et des femmes) ou la même variable mesurée sur le même échantillon à différents instants (on peut comparer le poids du même groupe à différents moments dune diète).
La courbe des fréquences cumulées (Ogive).
Comme son nom lindique, elle consiste à tracer le graphique des fréquences cumulées, en mettant les limites des classes sur laxe horizontal et les fréquences cumulées sur laxe vertical, ces dernières se cumulant à la fin de chacune des classes. Ce graphique aura lallure dune courbe croissante variant entre 0 et 1.
Remarque : Lorsque les classes ne sont pas de même amplitude, il faut se rappeler que la surface du rectangle dun histogramme étant égale à sa fréquence relative à la classe associée à ce rectangle, alors si la largeur de cette classe par exemple est le double de la lamplitude de base, la hauteur du rectangle doit être divisée par deux.
1.5 : Les mesures de tendance centrale
On appelle mesures de tendance centrale, des valeurs de la variable susceptibles de nous donner une idée sur la donnée qui occupe le centre dune série statistique. On va décrire dans ce paragraphe, les trois plus importantes mesures de tendance centrale que sont le mode, la moyenne et la médiane.
1.5.1.1 : Le mode
On appelle le mode dune variable X, la valeur de la variable qui a la plus grande fréquence et on le note Mo(X). Le mode est une importante mesure de tendance centrale pour les variables qualitatives nominales.
Remarque : Une distribution peut avoir un seul mode et on dit quelle est unimodale, ou plusieurs modes et on dit quelle est multimodale.
Exemple 1.5.1.1.1 : Si on reprend lexemple des boissons non-alcoolisées, on avait le tableau des fréquences suivant :
Tableau des fréquences des boissons non-alcooliséesX=BoissonFréquences absoluesFréquences relativesCC190,38CL80,16PC130,26P50,10S50,10Totaln=501
Alors, le mode de cette variable est Mo(X)=Coca-Cola (CC), cela signifie que dans cet échantillon, la boisson la plus fréquemment achetée est Coca-Cola.
Exemple 1.5.1.1.2 : En reprenant lexemple des recettes quotidiennes dun petit magasin, où la variable est quantitative continue avec des données groupèes en classes, on avait le tableau des fréquences suivant :
X=les recettesFréquences absoluesFréquences relatives[10 ; 100[50,125[100 ;190[30,075[190 ;280[110,275[280 ;370[60,150[370 ;460[110,275[460 ;550[30,075[550 ;640]10,025Totaln=401,000
Ici, on voit quil y a deux classes qui ont les plus hautes fréquences, on les appelle des classes modales. Alors on est en présence dune distribution de données bimodale, et les deux modes sont les milieux des deux classes modales, à savoir Mo(X)=235 et Mo(X)=415. Cela veut dire que dans cet échantillon les recettes quotodiennes les plus fréquentes sont soit de 235$ ou de 415$. Il y a des auteurs qui font des interpolations à lintérieur des classes modales pour trouver le mode, on estime que cest un effort inutile, vue que dans le cas dune variable quantitative le mode joue un rôle très marginal. On voit que le mode dune variable est une mesure de tendance centrale facile à déterminer et sapplique à tous les types de variables, mais sa portée comme mesure danalyse est très limitée.
1.5.2 : La moyenne.
La moyenne arithmétique ou simplement la moyenne est la mesure de tendance centrale la plus connue. Elle ne sapplique quaux variables quantitatives. On va décrire la méthode pour calculer la moyenne dune variable quantitative selon que les données sont en vrac, groupées par valeurs ou groupées par classes.
1.5.2.1 : Les données en vrac.
Soit X une variable quantitative dont les valeurs observées sur un échantillon forment une série en vrac QUOTE alors la moyenne de cet échantillon est
Exemple 1.5.2.1.1 : Un commerçant a lhabitude de noter dans son registre le nombre de clients qui se présentent quotidiennement à son magasin. On a pris un échantillon de taille 10 de ce registre et on trouvé les valeurs suivantes :
120 105 90 201 196 65 88 163 103 116
Alors dans cet échantillon le nombre moyen des clients qui se présentent à ce magasin par jour est donné par la formule suivante :
QUOTE clients par jour.
1.5.2.2 : Les données groupées par valeurs.
Soit X une variable quantitative discrète dont les données se présentent sous forme dun tableau où elles sont classées par valeurs, supposons que la taille de léchantillon est n et quil y a k valeurs différentes pour cette variable. Alors la moyenne dun tel échantillon de données est :
Exemple 1.5.2.2.1 : Reprenons les données de lexemple 1.4.2.1.1, où X est le nombre daccidents de travail par semaine. On avait le tableau de données suivant :
Tableau des fréquences du nombre daccidents par semaineXFréquences absolues0412210374105463Totaln=40
Alors la moyenne de cet échantillon est égale à
QUOTE accidents par semaine.
1.5.2.3 : Les données groupées par classes.
Supposons quon est devant un tableau où les données provenant dun échantillon sont groupées par classes. Alors pour calculer la moyenne de cet échantillon, on va utiliser une formule approximative, où chaque classe est assimilée à son centre et on utilise la même formule que pour le cas où les données sont groupées par valeurs. Si on note par QUOTE , le milieu de la ième classe et quon suppose que la taille de léchantillon est n et quil y a k classes, alors la moyenne de léchantillon est :
Exemple 1.5.2.3.1 : En reprenant lexemple 1.4.2.2.1 où X est la recette quotidienne dun petit magasin, on avait le tableau suivant auquel on a ajouté une colonne à gauche contenant le milieu des classes :
X=les recettesFréquences absolues55[10 ; 100[5145[100 ;190[3235[190 ;280[11325[280 ;370[6415[370 ;460[11505[460 ;550[3595[550 ;640]1Totaln=40
Alors la moyenne de cet échantillon est :
1.5.2.4 : Les propriétés dune moyenne échantillonnale.
Soit X une variable quantitative dont la moyenne échantillonnale est QUOTE et soit Y une autre variable quantitative transformée linéaire de X, c'est-à-dire que QUOTE où a et b sont des constantes réelles. Alors la moyenne échantillonnale de Y sera égale à
QUOTE
On dit que la moyenne conserve la transformation linéaire entre les variables.
Exemple 1.5.2.4.1 : Soit X, le nombre dheures quun étudiant travaille à temps partiel par semaine. Supposons quà partir dun échantillon détudiants, on a pu trouver quen moyenne le nombre dheures travaillées par ces étudiants est égale à QUOTE heures/semaine. Si le salaire horaire est de 10$ et que les patrons de ces étudiants leur offrent 30$ par semaine pour leurs déplacements, quel est le gain net moyen hebdomadaire de ces étudiants ? Posons Y, le gain net hebdomadaire de ces étudiants alors QUOTE , donc le gain moyen hebdomadaire de cet échantillon détudiants est égal à
QUOTE .
1.5.3 : La médiane.
La médiane est la valeur de la variable qui divise léchantillon en deux groupes dégal effectif. Il y a 50% des données qui sont inférieures ou égales à la médiane et 50% des données qui sont supérieures ou égales à la médiane. La médiane se calcule pour des variables qualitatives ordinales et pour des variables quantitatives. On note la médiane dune variable X par Med(X) ou par QUOTE . Dans ce qui suit on va décrire les façons de calculer une médiane dans les différents cas possibles.
1.5.3.1 : Cas dune variable qualitative ordinale.
Puisque les modalités dune telle variable sont déjà ordonnées par nature, alors pour déterminer la médiane, on calcule QUOTE , et donc
Où QUOTE signifie, lobservation occupant le rang immédiatement supérieur à QUOTE
Exemple 1.5.3.1.1 : Reprenons les données de lexemple 1.4.1.2, où X est le degré de satisfaction de la clientèle, on avait le tableau suivant :
Tableau des fréquences du degré de satisfaction des clients.Degré de satisfactionFréquences absolues10203243512625718Totaln=60
Ici, n=60 et QUOTE , alors
QUOTE . Le degré de satisfaction médian de la clientèle est égal à 6. Ce qui veut dire que dans cet échantillon 50% des clients ont un degré de satisfaction de 6 ou moins et lautre 50% un degré de satisfaction de 6 ou plus.
1.5.3.2 : Cas de données quantitatives en vrac ou groupées par valeurs.
On doit dabord ordonner les données par ordre croissant avant dappliquer la même procédure que pour les variables qualitatives ordinales. Ci-après nous donnerons un exemple pour chacun de ces deux cas.
Exemple 1.5.3.2.1 : Reprenons les données de lexemple 1.5.2.1.1 où la variable est le nombre de clients qui se présentent quotidiennement au magasin. On avait des données en vrac :
120 105 90 201 196 65 88 163 103 116
En les ordonnant, on aura : 65 88 90 103 105 116 120 163 196 201.
Ici, n=10 et QUOTE , alors
QUOTE . Ce qui veut dire quà partir de cet échantillon, on peut affirmer que dans 50% des journées, ce magasin reçoit 110 clients ou moins par jour et dans lautre 50% des journées, il reçoit 110 clients ou plus.
Exemple 1.5.3.2.2 : : Reprenons les données de lexemple 1.4.2.1.1, où X est le nombre daccidents de travail par semaine. On avait le tableau de données où les modalités de la variable sont groupées par valeurs, quon va changer un peu en ajoutant une donnée supplémentaire :
Tableau des fréquences du nombre daccidents par semaineNombre daccidents par semaineFréquences absolues0412210374105464Totaln=41
Ici, n=41 et QUOTE , alors
QUOTE .
Cest-à-dire que dans cet échantillon, dans 50% des semaines, on observe 3 accidents ou moins par semaine et lautre 50% des semaines, on observe 3 accidents ou plus par semaine.
1.5.3.3 : Cas de données groupées par classes.
Dans le cas où on dispose dun tableau de fréquences complet (incluant les fréquences cumulées) des données groupées par classes. Il faut dabord déterminer la classe médiane, qui est la classe où les fréquences cumulées dépassent pour la première fois 50%. Cette classe aura la forme :
QUOTE , alors on obtient la médiane par interpolation à lintérieur de cette classe médiane et on obtient la formule suivante :
QUOTE où
Exemple 1.5.3.3.1 : En reprenant les données où X donne la recette quodienne dun petit magasin, on retrouve le tableau des fréquences suivant :
X=les recettesFréquences absoluesFréquences relativesFréquences relatives cumulées[10 ; 100[50,1250,125[100 ;190[30,0750,200[190 ;280[110,2750,475[280 ;370[60,1500,625[370 ;460[110,2750,900[460 ;550[30,0750,975[550 ;640]10,0251,000Totaln=401,000
Alors ici, la classe médiane est QUOTE =[280 ;370[
QUOTE QUOTE
QUOTE QUOTE ce qui donne une médiane égale à :
Ce qui veut dire quen se basant sur cet échantillon de données, 50% des recettes quotidiennes de ce petit magasin sont inférieures ou égales à 295$ et les autres 50% sont supérieures ou égales à 295$.
Remarque 1 : Le calcul de la médiane est basé sur lordre des observations et non sur leur valeur. Contrairement à la moyenne, la médiane est insensible aux données extrêmes. Dans le cas où les données sont très différentes, la médiane est une meilleure mesure de tendance centrale.
Remarque 2 : Si pour une variable X quantitative les 3 mesures de tendance centrale sont presque égales, on dit alors que la variable est symétrique et alors nimporte laquelle de ces mesures peut être utilisée comme mesure de cette tendance centrale. Sil y a un grand écart entre ces mesures alors cest la médiane quon doit priviligier.
1.6 : Les mesures de position.
On a déjà parlé de la médiane comme mesure de tendance centrale, mais elle est aussi une mesure de position car elle permet de diviser une série dobservations en deux groupes chacun contenant 50% de données. On va définir dautres mesures de position qui permettent dautres découpages dune série dobservations.
1.6.1 : Les quartiles. Lorsquon veut diviser les données en quatres groupes, chacun contenant 25% des observations, on utilise des mesures appelées quartiles.
QUOTE =le 1er quartile, à sa gauche il y a 25% des observations, quon note QUOTE
QUOTE =le 2ème quartile, coincide avec la médiane, quon note QUOTE
QUOTE =le 3ème quartile, à sa gauche il y a 75% des observations, quon note QUOTE
On va décrire la façon de les calculer, dans les 3 cas possibles pour une variable quantitative.
1.6.1.1 : Les données en vrac. On suit les étapes suivantes.
Étape 1 : On ordonne les données par ordre croissant.
Étape 2 : On calcule lindice QUOTE où i est le pourcentage correspondant à la mesure voulue et n est le nombre dobservations.
Étape 3 : (a) si QUOTE nest pas un entier, alors le ième quartile est égal à lobservation occupant la position immédiatement supérieure à QUOTE .
(b) si QUOTE est un entier, alors le ième quartile est la moyenne des observations occupant les positions QUOTE et QUOTE
Exemple 1.6.1.1.1 : n=12 et les observations sont :
-2 -3 10 12 120 11 4 8 6 13 130 200.
Étape 1 : -3 -2 4 6 8 10 11 12 13 120 130 200.
Étape 2 : Si on veut déterminer QUOTE , on calcule QUOTE .
Si on veut déterminer QUOTE , on calcule QUOTE .
Si on veut déterminer QUOTE , on calcule QUOTE .
Étape 3 : Puisque QUOTE est un entier alors QUOTE
Puisque QUOTE est un entier alors QUOTE
Puisque QUOTE est un entier alors QUOTE
Exemple 1.6.1.1.2 : n=10 et les observations sont :
10 12 8 6 100 15 6 3 14.
Étape 1 : 3 3 6 6 8 10 12 14 15 100
Étape 2 : Si on veut déterminer QUOTE , on calcule QUOTE .
Si on veut déterminer QUOTE , on calcule QUOTE .
Si on veut déterminer QUOTE , on calcule QUOTE .
Étape 3 : Puisque QUOTE nest pas un entier alors QUOTE
Puisque QUOTE est un entier alors QUOTE
Puisque QUOTE nest pas un entier alors QUOTE
Remarque : La procédure décrite pour trouver les quartiles est une convention parmi dautres. Il ny a pas daccord général sur la méthode à utiliser pour déterminer les quartiles. Si vous utilisez des logiciels, les valeurs trouvées diffèrent dun logiciel à lautre. Par exemple, si on prend la série en vrac suivantes : 1 3 6 10 15 21 28 36, alors la calculatrice TI-83 et plus et les logiciels suivants donnent :
logicielSPSS3,7512,526,25SAS4,512,524,5STATDISK4,512,524,5Excel5,2512,522,75R5,2512,522,75Splus5,2512,522,75Minitab3,7512,526,25TI-83 et plus4,512,524,5Heureusement, dans la pratique, les échantillons sont très grands et ces fluctuations ne changent pas grand-chose dans les analyses des données.
1.6.1.2 : Les données groupées par valeurs.
On suit la même démarche que dans le cas des données en vrac, sauf létape 1 qui devient inutile, puisque les données sont en général déjà ordonnées par ordre croissant.
Exemple 1.6.1.2.1 : En reprenant le tableau de lexemple 1.5.3.2.2,
déterminer les 3 quartiles de la variable X=le nombre daccidents par semaine.
Tableau des fréquences du nombre daccidents par semaineXFréquences absolues0412210374105464Totaln=41
Réponse :
Étape 2 : Si on veut déterminer QUOTE , on calcule QUOTE .
Si on veut déterminer QUOTE , on calcule QUOTE .
Si on veut déterminer QUOTE , on calcule QUOTE .
Étape 3 : Puisque QUOTE nest pas un entier alors QUOTE
Puisque QUOTE nest pas un entier alors QUOTE
Puisque QUOTE nest pas un entier alors QUOTE
QUOTE signifie que dans cet échantillon, durant 25% des semaines, on a observé 2 accidents par semaine ou moins.
QUOTE signifie que dans cet échantillon, durant 50% des semaines, on a observé 3 accidents par semaine ou moins.
QUOTE signifie que dans cet échantillon, durant 75% des semaines, on a observé 4 accidents par semaine ou moins.
1.6.1.3 : Les données groupées par classes.
On suit la même démarche utilisée pour calculer la médiane quand les données sont groupées par classes. On détermine la classe où on a dépassé le pourcentage relatif à chaque quartile et on fait une interpolation à lintérieur de cette classe. On aboutit à la même formule que celle de la médiane où seul le poucentage est à adapter.
Exemple 1.6.1.3.1 : En reprenant les données de lexemple 1.5.3.3.1, déterminer les 3 quartiles de la variable X, soit les recettes quotidiennes dun petit dépanneur, et interpréter ces mesures.
X=les recettesFréquences absoluesFréquences relativesFréquences relatives cumulées[10 ; 100[50,1250,125[100 ;190[30,0750,200[190 ;280[110,2750,475[280 ;370[60,1500,625[370 ;460[110,2750,900[460 ;550[30,0750,975[550 ;640]10,0251,000Totaln=401,000
Réponse :
Pour déterminer le premier quartile, les fréquences relatives cumulées ont dépassé 25% pour la première fois au niveau de la classe [190 ; 280[, donc
QUOTE . Ce qui signifie que dans cet échantillon de données, 25% des journées, les recettes quotidiennes de ce petit magasin ont été de 206,36$ ou moins.
Pour déterminer le deuxième quartile (on refait ce quon a déjà fait pour calculer la médiane), les fréquences relatives cumulées ont dépassé 50% pour la première fois au niveau de la classe [280 ; 370[, donc
QUOTE Ce qui signifie que dans cet échantillon de données, 50% des journées, les recettes quotidiennes de ce petit magasin ont été de 295$ ou moins.
Pour déterminer le troisième quartile, les fréquences relatives cumulées ont dépassé 75% pour la première fois au niveau de la classe [370 ; 460[, donc
QUOTE . Ce qui signifie que dans cet échantillon de données, 75% des journées, les recettes quotidiennes de ce petit magasin ont été de 410,91$ ou moins.
Utilité des quartiles. Les quartiles, en plus de leur utilisation comme mesures de position, sutilisent pour détecter des données aberrantes dans toute série de données. Cette détection se fait à laide dun graphique, appelé graphique en boîte (box-plot) ou hamac ou diagramme à moustache selon les auteurs. Son principe consiste à calculer les quartiles de la série et deux limites acceptables. Soient une limite inférieure QUOTE et une limite supérieure QUOTE . Toute observation qui ne se trouve pas entre ces deux limites est jugée aberrante et doit être exclue de la série avant toute analyse des données (on essaye de faire une interprétation de la présence des données aberrantes éventuelles en fin danalyse).
Exemple 1.6.1.3.2 : Soit la série des données déjà ordonnée suivante :
8 12 20 27 30 32 35 36 40 40 40 40 41 42 45 47 50 52 61 89 101.
(n=21 observations). Déterminer sil y a des données aberrantes dans cette série à laide dun graphique en boîte (box-plot).
Réponse : Les différentes mesures de cette variable sont obtenues à laide du logiciel Minitab:
Variable N N* Mean SE Mean StDev Minimum Q1 Median Q3 Maximum
C2 21 0 42.29 4.72 21.63 8.00 31.00 40.00 48.50 101.00
Ce qui signifie que QUOTE et donc QUOTE et QUOTE . Donc, il y a 2 données aberrantes dans cette série ce sont 89 et 101(qui sont signalées par *), ce qui est illustré dans le diagramme en boîte ci-dessous.
EMBED MtbGraph.Document.16
Remarque : Une donnée abérrante peut avoir un effet catastophique sur la moyenne, sur lécart type et même sur lallure générale de la distribution des données.
1.6.2. Les autres de position.
Quelques fois, on doit découper une série dobservations en cinq, en dix ou en cents groupes contenant chacun le même pourcentage dobservations. Dans le cas de cinq groupes, on parle alors des quintiles QUOTE . Entre deux quintiles consécutifs, il y a 20% dobservations. Dans le cas de dix groupes, on parle des déciles QUOTE et entre deux déciles consécutifs, il y a 10% dobservations. Dans le cas de cent groupes, on parle des centiles QUOTE et entre deux centiles consécutifs, il y a 1% des observations. Le calcul de ces différentes mesures de position est identique à ce quon a fait pour déterminer les quartiles, il ny a que le pourcentage de la mesure à adapter à chaque fois. On va donner un exemple dans le cas où les données sont groupées par classes.
Exemple 1.6.2.1 : En reprenant les données de lexemple 1.6.1.3.1, déterminer le deuxième quintile, le septième décile et le quatre vingt quinzième centile de la variable X, les recettes quotidiennes dun petit dépanneur et interprétez chacune de ces mesures.
X=les recettesFréquences absoluesFréquences relativesFréquences relatives cumulées[10 ; 100[50,1250,125[100 ;190[30,0750,200[190 ;280[110,2750,475[280 ;370[60,1500,625[370 ;460[110,2750,900[460 ;550[30,0750,975[550 ;640]10,0251,000Totaln=401,000
Réponse :
Les fréquences cumulées dépassent pour la première fois 40% au niveau de la classe [190 ; 280[ ainsi le deuxième quintile est égal à
QUOTE . Ceci signifie que dans cet échantillon de données, 40% des journées, les recettes quotidiennes de ce petit magasin ont été de 255,45 $ ou moins.
Les fréquences relatives cumulées dépassent pour la première fois 70% au niveau de la classe [370 ; 460[, ainsi le septième décile est égal à
QUOTE . Ce qui signifie que dans cet échantillon de données, 70% des journées, les recettes quotidiennes de ce petit magasin ont été de 394,55$ ou moins.
Les fréquences relatives cumulées dépassent pour la première fois 95% au niveau de la classe [460 ; 550[, ainsi le quatre vingt quizième centile est égal à
QUOTE . Ce qui signifie que dans cet échantillon de données, 95% des journées, les recettes quotidiennes de ce petit magasin ont été de 520$ ou moins.
1.7 : Les mesures de dispersion.
Rappelons quon travaille sur des données issues dun échantillon et que le choix de cet échantillon est fait au hasard mais sensé refléter ce qui se passe dans la population. Ce qui fait que le comportement dune variable diffère dun échantillon à lautre mais on espère quil correspond au profil de cette variable dans la population. Ce qui fait que lorsquon manipule une variable mesurable et quon se base seulement sur ses mesures de tendance centrale, on perd de vue la variabilité des données autour de ces mesures centrales. Doù lutilité des mesures de dispersion qui, jumulées avec les mesures de tendance centrale, vont nous donner une idée plus exacte sur lensemble de ce quon a observé dans une série échantillonnale. Dans ce paragraphe, on va décrire quelques unes de ces mesures de dispersion.
1.7.1 : Létendue.
Cest la mesure de dispersion la plus simple à calculer. Lorsquon a une variable quantitative X, mesurée sur un échantillon de taille n. Alors létendue est égale à QUOTE .
Puisque létendue est basée seulement sur les deux observations extrêmes, alors elle est très peu utilisée dans les applications.
1.7.2 : La variance.
La variance dune variable mesurée sur un échantillon est égale à la moyenne des carrés des écarts qui séparent chaque observation de la moyenne échantillonnale, son calcul diffère selon la nature des données.
1.7.2.1 : Les données en vrac.
Soit X une variable quantitative mesurée sur un échantillon de taille n, et dont les valeurs sont : QUOTE alors la variance de léchantillon est
La sommation ci-dessus est divisée par (n-1) pour que cette variance échantillonnale soit une bonne estimation de la variance de toute la population. Ce quon verra plus en détails dans le chapitre VI. La variance se prête mal à linterpétation car vue son calcul, son unité est égale au carré de lunité de la variable X. Si par exemple X est égal au nombre denfants par ménage alors lunité de la variance serait QUOTE qui na aucune signification.
La variance est surtout utile lorsquon a une variable mesurée dans plusieurs groupes (analyse de la variance) ou dans le cas où on veut comparer plusieures variables mesurées sur le même échantillon ou comme étape de calcul pour calculer dautres mesures.
Exemple 1.7.2.1.1 : Soit X une variable quantitative mesurée sur un échantillon de taille n=6 et les valeurs suivantes ont été obtenues : -2 5 10 7 8 8
Alors QUOTE et la variance de cet échantillon sera égale à
1.7.2.2 Les données groupées par valeurs.
Soit X une variable quantitative mesurée sur un échantillon de taille n, et dont les k valeurs sont : QUOTE avec des fréquences absolues respectivement égales à QUOTE . Alors la variance de X dans cet échantillon est égale à
QUOTE .
Exemple 1.7.2.2.1 : En reprenant le tableau de lexemple 1.5.2.2.1,
déterminer la variance de la variable X=le nombre daccidents par semaine.
Tableau des fréquences du nombre daccidents par semaineXFréquences absolues0412210374105463Totaln=40
Réponse : On avait trouvé que la moyenne de cette variable est QUOTE donc sa variance sera égale à :
1.7.2.3 : Les données groupées par classes.
Soit maintenant X, une variable quantitative mesurée sur un échantillon de taille n, et dont les observations sont groupées en k classes avec des fréquences absolues respectivement égales à QUOTE et dont les milieux des classes sont respectivement égaux à QUOTE . Alors la variance échantillonnale de cette variable est :
Exemple 1.7.2.3.1 : En reprenant les données de lexemple 1.5.2.3.1, déterminer la variance de la variable X, les recettes quotidiennes dun petit dépanneur.
Réponse : On avait trouvé que la moyenne de la variable est QUOTE 298$
X=les recettesFréquences absolues55[10 ; 100[5145[100 ;190[3235[190 ;280[11325[280 ;370[6415[370 ;460[11505[460 ;550[3595[550 ;640]1Totaln=40Alors la variance de cet échantillon est égale à :
1.7.3 : Lécart type.
Lécart type dune variable quantitative mesurée sur un échantillon est égal à la racine carrée de sa variance. Son unité de mesure étant la même que celle de la variable, lécart type se prête alors aisément à linterprétation et est considéré comme la mesure de dispersion par excellence. La variance nest donc quune étape de calcul pour déterminer lécart type, quand on faisait les calculs à la main. Maintenant que tout est programmé, aucune calculatrice et aucun logiciel ne parle de variance comme telle.
Exemple 1.7.3.1 : Lécart type échantillonnal pour les 3 précédents exemples où on a calculé les variances échantillonnales est respectivement égal à :
QUOTE Pour les données de lexemple 1.7.2.1.1 où les données sont en vrac.
QUOTE . Pour les données de lexemple 1.7.2.2.1 où les données sont en groupées par valeurs.
QUOTE . Pour les données de lexemple 1.7.2.3.1 où les données sont groupées par classes.
Interprétation de lécart type échantillonnal.
Lécart type mesure la dispersion entre toutes les valeurs observées. Des valeurs proches donneront un plus petit écart type, alors que des données très séparées donneront un plus grand écart type.
Lorsque la distribution des données (histogramme ou polygone des fréquences ou autre) a une forme en cloche et que la taille de léchantillon est supérieure à 100, on doit sattendre à avoir 68% des données observées comprises entre la moyenne plus ou moins un écart type et 95% des données observées soient comprises entre la moyenne plus ou moins deux écarts types. Si on se trouve dans les mêmes conditions on peut estimer lécart type par la formule suivante :
1.7.3.1 : Propriétés de lécart type échantiollonnal.
Soit X une variable quantitative dont lécart type échantillonnal est QUOTE et soit Y une autre variable quantitative telle que QUOTE où a et b sont des constantes réelles. Alors lécart type échantillonnal de Y sera égal à
QUOTE
Exemple 1.7.3.1.1 : Reprenons le contexte de lexemple 1.5.2.4.1, où X est le nombre dheures quun étudiant travaille à temps partiel par semaine. Supposons quà partir dun échantillon détudiants, on ait pu trouvé que lécart type du nombre dheures travaillées par ces étudiants est égal à QUOTE heures/semaine. Si le salaire horaire est de 10$ et que les patrons de ces étudiants leur offrent 30$ par semaine pour leurs déplacements, quel est lécart type du gain net hebdomadaire de ces étudiants ? Posons Y, le gain net hebdomadaire de ces étudiants alors QUOTE , donc lécart type du gain net de cet échantillon détudiants sera égal à QUOTE $/semaine.
1.7.4 : Le coefficient de variation.
On avait dit que lunité de lécart type dune variable est la même que celles des données et qualors il sinterprète mieux que la variance. Mais si on veut comparer la dispersion de deux variables ou plus ayant des unités différentes mesurées sur le même échantillon ou sur des échantillons différents, il nous faut une mesure de dispersion sans unité. Cette mesure est le coefficient de variation. Pour un échantillon de données dont la moyenne est non négative, on définit le coefficient de variation dune variable X par :
Si on a un seul échantillon de données, alors si le coefficient de variation de X est inférieur à 15%, on dit que la variable est homogène, sinon elle est dite hétérogène.
Si on a deux échantillons (sur une ou deux variables) ou plus, alors celui (ou celle) qui a le plus petit coefficient de variation est le (ou la) plus homogène.
Exemple 1.7.4.1 : On a pris un échantillon de taille n=50 dhommes dâge adultes, on a mesuré leur poids et leur taille. Les résultats sont résumés dans le tableau suivant :
VariableMoyenneÉcart typeX=taille QUOTE =173,59 cmY=poids QUOTE =11,98 kg
Pour comparer lhomogénéité de ces deux variables, on utilise leur coefficient de variation.
Donc la taille des hommes adultes est plus homogène que leur poids. Ce qui correspond à lintuition. Par exemple il est très rare de voir deux hommes adultes dont lun serait deux fois plus grand que lautre, alors quil est fréquent de voir un homme adulte dont le poids est le double dun autre.
Exemple 1.7.4.2 : Pour comparer les distributions des blessures graves dans le basketball et dans le soccer, on a sélectionné au hasard 25 cégeps où ces sports se pratiquent en sport-étude. On a obtenu chez les étudiants masculins, les données relatives aux nombres de blessures graves par année dans ces deux sports :
Basketball 1 2 4 4 7 3 3 2 4 5
2 4 3 5 3 4 4 3 6 5
5 6 4 6 5
Soccer 1 7 7 6 1 2 6 1 7 2
1 3 2 7 5 6 1 7 4 1
5 7 6 3 2
Pour comparer ces deux échantillons, calculons dabord leurs mesures statistiques de base.
Variable N N* Mean SE Mean StDev Minimum Q1 Median Q3 Maximum
Basket 25 0 4.000 0.294 1.472 1.000 3.000 4.000 5.000 7.000
Soccer 25 0 4.000 0.490 2.449 1.000 1.500 4.000 6.500 7.000
On voit que leur moyenne et leur médiane sont toutes égales à 4, donc si on se limitait aux mesures de tendances centrales, on aurait conclu à une similitude de ces deux distributions.
Mais en comparant leur écart type et donc leur coefficient de variation, on voit que les données sur le soccer sont plus dispersées. Ce quon peut aussi confirmer par des graphiques suivants :
EMBED MtbGraph.Document.16
Ayez un esprit critique.
Maintenant quon est armé doutils pour examiner la tendance centrale, la dispersion, la distribution des données, les valeurs extrêmes ou aberrantes, on pourrait être tenté de développer une procédure mécanique et aveugle, mais penser de façon critique est dune importance primordiale dans toute analyse de données. En plus de lutilisation des outils présentés dans ce chapitre, il est important de ne pas négliger tout autre facteur qui sy rapporte et qui pourrait être crucial pour les conclusions de létude. On pourrait penser par exemple à la représentativité des données, à la source des données qui pourrait affecter leur qualité. En résumé, en plus des outils présentés dans ce chapitre, on devrait aussi penser.
Outil technologique :
La calculatrice TI-83 : On va présenter à partir des données de lexemple1.4.2.2.1 comment tracer un histogramme avec une calculatrice TI-83 ou plus performante.
HISTOGRAMMELes touches de la calculatriceCe quon fait et ce quon obtientSTATOn accède à léditeur116 EnterOn entre les données
.
.621.35 EnterWINDOWOn accède aux fenêtres pour mettre les limites des classes et leur amplitude.10 EnterLa borne minimale640 EnterLa borne maximale90 EnterLamplitude des classesEnter2NDTracer lhistogrammeY= EnterCurseur sur ONAvec ces flèches on va chercher parmi les graphiques celui de lhistogrammeENTERGRAPHTRACEOn détermine les fréquences et les limites en déplaçant le curseur.Pour calculer toutes les mesures avec une calculatrice TI-83 ou plus performante, il suffit daccéder à léditeur de STAT et saisir les données dans une liste et le calcul se fait automatiquement en appuyant sur la touche calcul (une seule variable) et donner le nom de la liste qui contient les données.
PAGE \* MERGEFORMAT 10
MHAMMED MOUNTASSIR
2012
La statistique descriptive
Répartition des ventes des boissons non alcoolisées selon la marque
Diagramme circulaire donnant la répartition des boissons non alcoolisées selon la marque
Répartition du degré de satisfaction des clients
Degré de satisfaction
Diagramme circulaire, donnant la répartition du degré de satisfaction des clients.
Répartition du nombre daccidents par semaine.
Le nombre daccidents par semaine
Répartition des 40 semaines selon les recettes hebdomadaires du dépanneur
Histogramme donnant la répartition des 40 semaines en fonction des recettes hebdomadaires
Fréquences relatives
Polygone des fréquences donnant la répartition des 40 semaines selon les recettes hebdomadaires.
Ogive de la répartition des 40 semaines selon les recettes hebdomadaires