cours de statistiques - Free

Important : à l'examen, seules les calculatrices sans mémoire possédant les opérations .... climatologie ou en hydrologie pour des raisons évidentes de commodité, ... d'étudier une population, de nombreuses questions se posent à son sujet.

part of the document

ents et, il faut le savoir aussi, qui sont parfois très critiquées. Ces méthodes ont un pouvoir descriptif et explicatif bien plus riche que si on se contente d'interpréter des tableaux élémentaires de données, elles permettent de mettre en évidence ce qui est essentiel dans les données .
En effet, la statistique permet de trouver des liens entre les variables et de dégager des structures dans les données, de trouver des renseignements pertinents noyés dans une masse dinformation, elle peut également classer linformation : elle synthétise linformation.
Pour réussir à bien déchiffrer ces renseignements, pour éviter de se tromper lors dune analyse de données, pour comprendre la signification de certains chiffres, pour employer la bonne méthode danalyse, pour comprendre la puissance des méthodes statistiques, il faut maîtriser les notions fondamentales de la statistique.
Définition : la statistique est une famille de techniques visant au rassemblement, à la présentation et à lanalyse des données quantitatives, ainsi quà lutilisation de ces données pour prendre des décisions.
Au départ, la statistique se contentait de comprendre les problèmes en étudiant le passé et en faisant plutôt des analyses rétrospectives et historiques. Aujourdhui on fait de la statistique pour anticiper lavenir : on prévoit des expériences, on choisit des échantillons, on analyses des données en fonction de décisions qui doivent être prises et elles mènent à des actions concrètes dans le domaine politique et surtout économique (études de clientèle, marketing, études des goûts et habitudes).

La statistique comporte deux niveaux :
La statistique descriptive
Elle consiste à rassembler les données de base à les mettre en forme dans des tableaux, les critiquer (détecter des valeurs aberrantes, anormales, hors norme et prendre la décision de les garder où non), les présenter et en faire une première analyse sommaire CAD : les grandes masses de données doivent être condensées, résumées, pour quon puisse facilement en prendre connaissance.
La statistique exploratoire
Tente délaborer des théories et dénoncer des lois, voir dextrapoler les résultats pour éventuellement anticiper lavenir, grâce à des modèles à bases probabilistes.
Nous allons aborder ensemble :
Révisions et notions générales de statistique descriptive
Les indices statistiques (servent à mesurer l'évolution au cours du temps de phénomènes économiques) ;

Dans la deuxième partie, vous aborderez quelques notions complémentaires comme la corrélation ou létude des séries temporelles.

Révisions et bases
Conventions d'écriture
Ces conventions simplifient l'écriture des formules et la plupart d'entre vous les connaissent certainement déjà.
Constante/variable
Une constante est souvent désignée par une lettre minuscule (a, b ou c).(
Une variable est notée X, Y, Z(. Une variable sera capable de prendre toute une série de valeurs.
X125189
Rang/indice
Le rang sest la place quoccupe une valeur dans la série : la valeur qui occupe le rang 3 cest 5.
Il y a autant de rangs possibles dans la série que de valeurs. En général N ou n( est la lettre qui désigne le nombre total de rangs possibles. Dans la série ci-dessus, N vaut 6.
En statistique on a souvent besoin de désigner le rang des valeurs, sest pourquoi on utilise lécriture indicielle. Les indices sont placés généralement en bas et à droite des lettres. Ils désignent le rang de l'une des valeurs de la série. Ces indices sont soit des lettres (ils désignent nimporte quel rang), soit des chiffres, ils désignent un rang précis.
Exemples :
Lécriture d'une valeur x de rang quelconque i (se lit « x indice i ») : xi(
i est un indice qui varie de 1 à N.
Ecriture dune valeur x de rang 3 : x3( et x3 = 5
Somme
Pour une variable X composée de N éléments, on cherche S tel que
S = x1 + x2 + ... + xn (
En écriture indicielle S = EMBED Equation (
Sigma est le signe de la somme. Ceci se lit comme la somme des xi pour i variant de 1 à n.
Multiplication
Pour une variable X composée de N éléments on cherche M tel que
M = x1 * x2 * ... * xn (
En écriture indicielle M = EMBED Equation (
Pi est le signe de la multiplication. Ceci se lit comme la multiplication des xi pour i variant de 1 à n.

Langage statistique
Quelques définitions.
Population
Définition : Une population statistique est lensemble de référence sur lequel on effectue des observations. La population est composée dun ensemble fini déléments ou dobservations (on peut tous les compter et les identifier).
Lorsque lon démarre une étude statistique, il est très important de définir la population de façon très précise, de manière à ce que les résultats soient compréhensibles et comparables avec dautres études menées sur le sujet. Exemple : on mène une étude sur les habitants des communes du Bas-Rhin. Est-ce que lon prend les personnes du Chef-lieu et des hameaux où seulement celle du chef-lieu (sans les hameaux et habitations isolées). Faut-il compter les élèves en internat, les militaires
Ainsi, en omettant de définir précisément les éléments utilisés, on peut faire mentir la statistique.
Les conclusions dune étude statistique ne sont valables que pour la population étudiée, il ne faudra pas chercher à étendre les résultats sans les plus extrêmes précautions.
Individu
Définition : un individu, aussi appelé unité statistique, est un élément qui appartient à la population. Exemple : si on étudie les départements français, la France a une population de 96 départements et le Bas-Rhin est considéré comme un individu. Les populations et les individus sont de nature diverses : êtres humains (habitants, salariés, locataires) ; objets (pièces mécaniques, voitures) ; faits ou actes (appels téléphoniques) ; unités de temps (jours, semaines).
Echantillon
Lorsque la population est trop nombreuse ou impossible à observer dans sa totalité, on choisit un sous-ensemble de la population selon des critères quil faut préciser.
Définition : un échantillon est un sous-ensemble prélevé dans une population. L'analyse statistique sur échantillon est très couramment pratiquée par les instituts de sondage, ou en géomorphologie, climatologie ou en hydrologie pour des raisons évidentes de commodité, de rapidité, de coût, car on évite d'étudier toute une population.
Le problème alors cest de savoir dans quelles conditions il est possible détendre les conclusions obtenues sur un échantillon à toute la population. Un échantillon non représentatif est dit « biaisé ».
Exemple : En 1936 aux Etats Unis, le républicain Lindon se présentait à l'élection présidentielle contre le démocrate Franklin Roosevelt. Deux semaines avant l'élection, le magazine Literary Digest envoya 12 millions de cartes postales pour demander aux électeurs pour qui ils allaient voter. Il reçut 2,5 millions de réponses, 57% votant pour Lindon et 43 % pour Roosevelt. On sait que la véritable élection donna le résultat opposé. Que s'est-il passé ? Le magazine a obtenu son échantillon à partir du fichier des immatriculations de voitures et de lannuaire du téléphone. En 1936, au coeur de la dépression, les électeurs qui possédaient une voiture et le téléphone étaient parmi les plus aisés et, en conséquence, avaient plutôt tendance à voter Républicain. De ce fait, l'échantillon n'était pas représentatif. Le grand nombre de réponses obtenu (2,5 millions) ne pouvait compenser la non-représentativité de léchantillon.. Un échantillon représentatif de 1000 personnes, tel qu'on en utilise couramment aujourd'hui, est largement préférable pour obtenir des résultats valables. Le principe est que la taille dun échantillon ne compensera jamais sa non-représentativité.
Caractère et modalité
Lorsque lon a choisi détudier une population, de nombreuses questions se posent à son sujet. On va chercher à définir les principales caractéristiques de la population (ses propriétés) comme par exemple : lâge ou la taille si on travaille en médecine ; le salaire des catégories professionnelles ; le débit des cours deau en hydrologie ; la température de lair si on travaille en climatologie
Les individus qui composent la population peuvent donc être décrits à laide dun ou de plusieurs caractères.
Modalité
On appelle modalité les différentes valeurs possibles du caractère.
Caractère quantitatif (variable statistique)
Le caractère est quantitatif lorsquon peut lestimer en lui associant un nombre (poids, taille, salaire.).
Dans ce cas la variable peut être discrète ou continue.
La variable discrète ne prend quun nombre fini de modalités. Exemple : le nombre denfants.
La variable continue peut prendre en théorie un nombre infini de modalités. Exemple : la température, la taille. En théorie, il est toujours possible de trouver la valeur dun élément intermédiaire entre deux tailles, deux températures
Attention, en pratique, la plupart des caractères quantitatifs deviennent discrets en raison de la précision des appareils de mesure !
Le caractère quantitatif est toujours associé à une unité de mesure, il faudra la préciser.
Caractère qualitatif
Le caractère est dit qualitatif si on ne peut pas le mesurer (la couleur des cheveux, la profession, la marque dune voiture).
Lensemble des modalités que peut prendre le caractère sappelle alors une nomenclature : lensemble des noms des marques de voiture forme une nomenclature, mais Renault est une modalité de cette nomenclature.
Pour être valable une nomenclature doit comprendre au minimum deux modalités !
Les rubriques de la nomenclature sont parfois codées pour une identification aisée. Exemple : A lentrée dun musée on demande aux gens dindiquer leur département : ces numéros nont aucune signification, on ne peut pas calculer un département moyen ! Ces numéros servent à créer des catégories, des groupes. Aussi, bien que la nomenclature soit codée, il sagit bien dun caractère qualitatif.
La nomenclature est plus ou moins facile à mettre en place car : dans le cas des voitures on pourra prendre les marques, la couleur, tel équipement
Par contre, on aura du mal à être exhaustif sur les catégories socioprofessionnelles, elles sont tellement variées quon devra les regrouper par catégories les plus homogènes possibles, doù des difficultés : exemple : va-ton créer pour les enseignants une catégorie à eux ou va-t-on les inclure avec les cadres ?

Transformation dune information quantitative en qualitative
Pur des évidentes, il vaut mieux se procurer une information quantitative la plus détaillée possible, mais pour des raisons pratiques, il arrive parfois quon veuille simplifier des formulaires si le caractère quantitatif en tant que tel ne nous intéresse pas et quon veuille simplement identifier des groupes : est-ce que les jeunes dans cette promotion réussissent mieux que les vieux ? On va leur demander leur âge en fixant
deux modalités : plus de 20 ans ou moins de 20 ans
trois modalités : 20 ans, 20-23 ans plus de 23 ans
etc
Ceci permettra de créer des groupes pour lesquels on calculera une moyenne aux examens.

Série statistique
La série statistique désigne lensemble des données (valeurs) obtenues pour un caractère quantitatif. Il doit y avoir autant de valeurs dans la série que dindividus étudiés (ce qui nest pas évident à obtenir lorsque des gens choisis dans un échantillon au hasard ne répondent pas, ou ne répondent pas à certaines questions).
Il est impératif que chaque donnée puisse être rattaché à un individu clairement identifié si les caractères sont acquis séparément, ce qui permettra le regroupement des données.
Exemple : (
1) Acquisition
IdentifiantXIdentifiantYIdentifiantZBas-Rhinx1Vosgesy1Mosellez1Mosellex2Moselley2Bas-Rhinz2Vosgesx3Bas-Rhiny3Vosgesz3JJJJJJJJJxnJJJJJJJJJynJJJJJJJJJzn
2) Regroupement
IdentifiantXYZBas-Rhinx1y3z2Mosellex2y2z1Vosgesx3y1z3JJJJJJJJJxnynzn
3) Tableau définitif
IdentifiantXYZBas-Rhinx1y3z2Mosellex2y2z1Vosgesx3y1z3JJJJJJJJJxnynzn
Classe
Quand le nombre de valeurs dans une série statistique est important il est souhaitable de les regrouper par classes.
Classe : ensemble dunités statistiques considérées comme équivalentes placées dans une même rubrique.
Le classement consiste donc à partitionner la population. Les classes ne doivent pas avoir déléments en commun. Les classes ne doivent pas être trop nombreuses, sinon le classement napporte pas de simplification ; elles ne doivent pas être en nombre trop restreint sinon on perd trop dinformation et on risque de regrouper des individus qui se ressemblent peu.
Lorsque le caractère est qualitatif, les classes dépendent de la nomenclature.
Lorsque la variable est discrète, les classes peuvent correspondre aux valeurs de la variable.
Lorsque la variable est continue, on partage la série statistique en intervalles plus ou moins réguliers.
EMBED Word.Picture.8 (
Chaque classe est définie par ses bornes inférieure et supérieure (a et b) avec (a < b) (. En général on considère que a appartient à la classe et b ny appartient pas. La classe sécrit : [a ;b[(.
On parle dintervalle fermé à gauche et ouvert à droite.
La différence entre a et b sappelle lamplitude de la classe et se calcule en faisant b-a(.
Le centre de chaque classe est souvent utilisés dans les calculs, comme on le verra par la suite.
Le découpage en classes est très délicat à effectuer et conditionne aussi les résultats des analyses (il est possible de tricher ou de fausser les résultats). Il existe de nombreuses méthodes de découpage en classes : classes damplitude constante ou variable
Effectif
Effectif : nombre déléments que contient chaque classe.
Voici une série statistique discrète qui comprend 6 observations, celle de la variable « Notes » (
Notes5785118On va dabord classer la variable note : comme la variable est discrète on va créer 4 classes de notes.
On va ranger les classes par ordre croissant, comme on a fait un regroupement, il va falloir indiquer le nombre dindividus que contient chaque classe.
Notes57811Effectif2121Effectif cumulé2356La ligne des effectifs détermine une distribution statistique deffectif total (N) = somme de tous les effectifs (ici N = 6) et de k classes.
Lintérêt davoir rangé les valeurs par ordre croissant cest que si on se pose la question : quel est le nombre délèves ayant eu une note inférieure ou égale à 7, on compte le nombre délèves ayant obtenu 5 + le nombre délèves ayant obtenu 7.
Si la variable est classée dans le désordre la réponse peut être longue à trouver, mais si elle est classée dans lordre croissant, cest simple.
Dautant plus quil est possible de travailler sur les effectifs cumulés. Le cumul des effectifs permet de connaître instantanément le nombre dindividus ayant une valeur inférieure ou supérieure à une certaine valeur.
Attention cependant, car le découpage des classes détermine la répartition des effectifs (Voir exemple des notes obtenues par des candidats et le découpage en classes de 1,2,4,5 points) ! (
Distributions simples
Les distributions symétriques décroissent symétriquement de part et dautre dun maximum central. Ces distributions sont assez rares. Les paramètres de tendance centrale (comme la moyenne) ont une signification.
EMBED MSGraph.Chart.8 \s EMBED MSGraph.Chart.8 \s (
Les distributions asymétriques à un seul sommet : les effectifs décroissent plus rapidement dun côté que de lautre du maximum. Se sont les plus fréquentes, on a assez fréquemment un étalement vers les valeurs les plus élevées de la variable. Certains paramètres de tendance centrale sont significatifs.
Les distributions hyperboliques dans lesquelles la fréquence maximum se présente à une extrémité.
Les distributions en U
EMBED MSGraph.Chart.8 \s EMBED MSGraph.Chart.8 \s (
Montrer des exemples de distribution réels(
Fréquence
Nombre par lequel on désigne limportance relative dun événement ou dune observation, alors que leffectif donne limportance absolue dun évènement.
Si on dispose de (N) observations et que lobservation particulière (i) se produit n fois, sa fréquence est : fi = ni / N.

Notes57811Effectif2121Effectif cumulé2356Fréquence0.330.170.330.17Fréquence cumulée0.330.50.831La fréquence doit être comprise entre 0 et 1 : 0 ( fi (1. (
La somme de toutes les fréquences doit être égale à 1.
EMBED Equation.3 (
Les fréquences sont souvent exprimées en pourcentage.
Comme je le disais, la fréquence indique limportance relative de chaque classe alors que les effectifs nous donnent limportance absolue. Selon le cas on peut utiliser lune ou lautre des formulations.
On peut toujours calculer des fréquences à partir des effectifs, mais linverse nest vrai que si on connaît leffectif total (N) : ni = fi * N. (
Il est possible de masquer un nombre insuffisant dobservations en utilisant les fréquences.
La fréquence cumulée indique limportance relative des observations inférieures ou égales à un certain seuil.
Erreur statistique
On peut distinguer deux types derreurs
Les erreurs aléatoires
Qui surviennent par exemple quand vous faites un sondage à partir dun échantillon et non pas à partir dune population, si léchantillon est tiré au hasard, les résultats obtenus oscillent autour de la valeur vraie. Les erreurs aléatoires surviennent aussi au moment de la collecte des données, normalement elles se compensent.
Les erreurs systématiques
Cest le cas quand les sondés ne répondent pas sincèrement aux questionnaires, ou lorsque lenquêteur nest pas neutre ! Dans ce cas les résultats sont biaisés.

Analyse élémentaire des séries statistiques
Lorsque une série comporte un grand nombre de valeurs, on cherche à la résumer à laide de quelques nombres significatifs appelés paramètres. Ces paramètres permettront aussi de comparer plusieurs séries statistiques entre elles : Les températures de Strasbourg par rapport à celles de Lyon par exemple.
On a constaté précédemment que les données dune série statistique accusent une certaine accumulation des effectifs autour dune valeur particulière du caractère et présentent un étalement plus ou moins grand des effectifs de part et dautre de cette valeur.
Ainsi la description dune série statistique doit être faite sous trois angles :
analyse du paramètre central (position) de la série ;
dispersion ou fluctuation des observations autour de cette valeur centrale ;
forme (symétrie, aplatissement) de la distribution de la série.
dans certaines conditions on peut calculer un indice de concentration
Paramètres de position dune série
Lidée est de caractériser une série par un nombre unique, représentatif de la série, de telle sorte que, la comparaison de deux séries se ramène à la comparaison de deux nombres.
Moyenne
La moyenne dune série X se note conventionnellement EMBED Equation et se lit x barre ou x moyenne.
Données brutes
Une série de données brutes(
Notes (X)5785118On applique la formule de la moyenne arithmétique
EMBED Equation EMBED Equation (
Doù EMBED Equation (

EMBED Equation = 7.3
Série classée
Lorsque la série est classée il est inutile de létendre pour obtenir la moyenne. (
Notes (X)57811Effectif2121Variable = X
Effectif total = N
Nombre de classes = K
Effectif par classe = E

On calcule une moyenne pondérée : chaque note est pondérée par son effectif. Le poids de chaque valeur dépend de son effectif

EMBED Equation EMBED Equation (

Doù EMBED Equation (

EMBED Equation = (2*5 + 1*7 + 2*8 + 1*11) / 6 = 7.3(
Important ! Si on a des classes avec des bornes, on remplace xi est par le centre de la classe, mais alors on obtient une approximation de la moyenne.
Moyenne à partir de classes dont on connaît les moyennes
Si on a une population de N individus divisée en p classes pour lesquelles on a une moyenne (m) pour lesquelles on connaît les effectifs (e), alors la moyenne générale se calcule selon la méthode pondérée :
(
XC1C2C3CpMoyenne Mm1m2m3mpEffectif Ee1e2e3epVariable = X
Effectif total = N
Nombre de classes = K
Effectif par classe = E
Moyenne par classe = M

EMBED Equation EMBED Equation (
EMBED Equation (
Même formule que précédemment, mais on remplace le centre de la classe par la moyenne de la classe. Cette méthode est meilleure que la précédente quand on a des classes avec des bornes.
Moyenne à partir de fréquences :
On voit ici que EMBED Equation est une fréquence. Donc si on a des classes et des fréquences il est possible de calculer la moyenne de la façon suivante : pour une variable discrète par exemple

Classes de XFréquencesx1f1x2f2xnfn EMBED Equation (
En remplaçant les x par le centre des classes si on a des bornes ou mieux, par la moyenne de la classe.
Remarques
Quelques propriétés mathématiques de la moyenne :
Si X et Y sont deux séries, la moyenne des nombres x1 + y1, x2+y2,., xn+yn est égale à : EMBED Equation + EMBED Equation .(
Si a est une constante quelconque et X une série de nombres, la moyenne des nombres x1 + a, x2 + a,, xn + a est égale à : EMBED Equation + a. (
Si a est une constante quelconque et X une série de nombres, la moyenne des nombres a x1, a x2,,a xn est égale à : a EMBED Equation .(

EMBED Equation.3 minimale. (

Ce qui a pour conséquence que la moyenne est le centre de gravité dune distribution (illustration par le graphique).
La moyenne est sensible aux valeurs extrêmes qui ont tendance à attirer le centre de gravité vers elles. Or ces valeurs extrêmes sont souvent peu significatives, exceptionnelles, voire aberrantes, cest pourquoi parfois on les élimine carrément des séries, ou alors on calcule une valeur moyenne partielle sans les valeurs extrêmes, mais qui sont conservées pour dautres traitements.
Médiane
La médiane désigne le nombre qui permet de couper la population étudiée en deux groupes contenant le même nombre dindividus. La médiane renseigne sur la répartition des effectifs : 50% des individus ont une valeur inférieure à la médiane et 50% une valeur supérieure. La médiane à lavantage de ne pas dépendre des valeurs extrêmes (si on élimine trois valeurs quelconques dun côté et 3 valeurs extrêmes de lautre, la médiane ne change pas, alors que la moyenne sera complètement différente.
Calcul de la médiane dune série brute :
Ranger la série de nombres par ordre croissant, en répétant les nombres(
X Non trié125189X Trié112589
si leffectif (N) de la population est impair, trouver le nombre xi situé au milieu de la suite, tel que son indice i = (N+1)/2 ; Ici i = 3 et la valeur de la médiane est 2. (
si leffectif (N) de la population est pair, la médiane est le nombre situé au centre de lintervalle formé par les valeurs de rang i = EMBED Equation , cet intervalle sécrit EMBED Equation (
Il faut donc trouver le milieu de [x3 ;x4] soit le milieu de [2;5] donc M = 3.5.
La médiane nest donc pas nécessairement une valeur de la suite .
Il peut arriver que lintervalle médian soit du type [a ;a], dans ce cas M vaut a.

Cette méthode implique que pour trouver la médiane dune série classée il faut étendre la série. Exemple : (
X5045306061Effectif23221Dabord on range les valeurs dans lordre croissant :
30, 30, 45, 45, 45, 50, 50, 60, 60, 61. (
Comme N est pair (N = 10), la médiane est le milieu de lintervalle médian délimité par la cinquième et sixième valeur [x5 ;x6] soit [45 ;50], donc M = 47.5. (
Cette méthode est la méthode idéale et la meilleure, mais longue et fastidieuse si on a beaucoup de données, en plus il faut posséder les données originales.
Série classée
Que lon se rassure, pour une série classée, inutile détendre la série !
Si les données sont regroupées par classes, pour trouver la médiane, il faut recourir à un procédé dinterpolation linéaire.
Exemple : on effectue des essais sur un échantillon de 199 ampoules (N=199) pour tester leur durée de fonctionnement. Les résultats sont regroupés en classes damplitude 100 heures. (

Classe X (h)[1200;1300[[1300;1400[[1400;1500[[1500;1600[[1600;1700[Effectif3050703019Effectif cumulé3080150180199Comme N est impair, la médiane correspond à la valeur x100. Cette valeur appartient à la classe [1400;1500[. La valeur de la médiane se situe donc entre 1400 et 1500 heures.
On va utiliser une interpolation linéaire(équation de proportionnalité) :
La formule sécrit donc EMBED Equation.3 (
ainsi dans linterpolation la valeur cherchée (M) dépend de la valeur la plus faible de la classe (V), de la différence entre le rang de la valeur recherchée et les effectifs cumulés des classes précédentes (D), de leffectif de la classe (E) et de lamplitude de la classe (A). (
doù EMBED Equation = 1428.57 h(
Inconvénient majeur : dans ce cas, le résultat est une approximation de la vraie valeur.
A part son pouvoir descriptif, la médiane est peu employée dans les calculs statistiques.
Elle possède la propriété mathématique suivante :
EMBED Equation.3 minimale si a est la médiane. (
Mode, classe modale
Dans de nombreux cas on veut connaître la valeur la plus fréquente de la variable : dans une population, parmi toutes les tailles, quelle est celle qui revient le plus souvent ? Dans une station de traitement des eaux, on teste toutes les semaines la teneur en nitrate de leau, quelle est la valeur qui revient le plus souvent ?
On appelle mode dune série statistique une valeur ou la classe dont leffectif ou la fréquence est le plus grand. Le mode est donc la valeur la plus probable. Il peut y avoir plusieurs modes dans une série, comme dans le cas des séries bi modales. Ces séries feront lobjet dun traitement spécial.
Lorsque la série statistique se présente sous forme de classes, la classe qui présente le plus grand effectif est appelée classe modale.

Voici une série statistique discrète des vitesses de véhicules (
Vitesses (Km/h)70727475788083Effectif2122131Son mode est 80, mais on va la classer par classes damplitude 3
Classe de vitesses (Km/h)[70 ;73[[73 ;76[[76 ;79[[79 ;82[[82 ;85[Effectif34131La classe [73 ;76[ est la classe modale de cette série classée. La classe modale ne correspond pas au mode. La classe modale est sensible à la façon dont on procède au classement.
Comparaison des paramètres de position
Dans les distributions symétriques, le mode, la moyenne et la médiane ont la même valeur. Lorsque la distribution est légèrement asymétrique, et unimodale, la médiane se trouve entre la moyenne et le mode.
EMBED Word.Picture.8 (
Pourquoi ?
On a vu que la moyenne est très influencée par les valeurs extrêmes et le centre de gravité se déplace du côté où elles sont les plus nombreuses, donc à droite.
Puisque le distribution est asymétrique, il y a plus de valeurs à droite du mode quà gauche, donc la médiane est décalée à droite, mais sa valeur est inférieure à celle de la moyenne.

En étudiant de nombreuses distributions, on saperçoit que la médiane ne se positionne pas nimporte où : sa « distance » au mode est environ double de sa distance à la moyenne, donc :
Mode = 3*Médiane 2 * Moyenne(
Cette règle est intéressante car elle permet dévaluer statistiquement et approximativement la valeur du mode en connaissant les 2 autres.
Mais attention, cette règle nest pas toujours vraie, elle nest valable que pour les distributions légèrement asymétriques.
Les paramètres de dispersion
Lorsque les valeurs de la série ne sont pas trop différentes, la moyenne permet davoir une idée assez juste de la série. Mais si certaines valeurs sont très différentes, la distribution devient hétérogène et la moyenne ne donne pas une idée juste de la réalité.
EMBED Word.Picture.8 (
De ce fait la moyenne arithmétique n'a pas toujours de signification concrète et doit toujours être accompagnée d'une caractéristique de dispersion.
Dispersion des effectifs : les quantiles
La médiane donne une idée de la répartition des effectifs (moitié/moitié). Mais parfois on souhaite avoir des renseignements plus précis sur la répartition des effectifs. Par exemple, le salaire brut médian versé en France est de 20389 Euros/an (une moitié gagne moins et lautre gagne plus).
Lidée est de partager les effectifs en groupes de même effectif chacun : les quartiles (4 groupes de 25%), les quintiles (5 groupes de 20%) et les déciles (10 groupes de 10%)(.
Les quartiles désignent les nombres qui permettent de couper la population étudiée en 4 groupes contenant le même nombre déléments (25% des effectifs chacun).

Cas des données brutes

Voici une série de 23 nombres (n = 23) rangés dans lordre croissant(.

4 4 4 4 4 4 7 7 7 7 7 10 10 10 10 10 10 10 13 13 13 13 16
25% | 25% | 25% | 25%
Q1 M Q3

on divise la série selon la médiane (12ème élément)
on divise les deux demi séries en deux effectifs égaux ou selon la plus petite valeur qui convient
La valeur de Q1 est la valeur du premier quartile : au moins 25% des effectifs ont une valeur du caractère inférieure ou égale à 4
La valeur de Q3 est la valeur du troisième quartile : au moins 75% des effectifs ont une valeur du caractère inférieure ou égale à 10.

Comment trouver facilement les quartiles ? (
Si i = N/4 est un entier, alors Q1 est le terme qui occupe le rang i et Q3 est le terme qui occupe le rang 3i.
Si i = N/4 nest pas un entier, Q1 est le terme de rang immédiatement supérieur à i (ici N/4 = 5.75 donc le 6ème rang) et Q3 est le terme de rang immédiatement supérieur à 3N/4 (ici 3N/4 = 17.25 donc le 18ème rang).
Cas dune série classée, après calcul des fréquences
Classe X (h)[0 ;2[[2 ;4[[4 ;6[[6 ;8[[8 ;10[[10 ;12[[12 ;14[Fréquence0.120.150.180.240.140.100.07Fréquence cumulée0.120.270.450.690.830.931(
Q1 doit se trouver dans la classe où se trouve la fréquence cumulée 0.25, donc dans la classe [2 ;4[ on va trouver Q1 par interpolation linéaire :
EMBED Equation.3 (
On procède de même pour Q3 et pour la médiane.
EMBED Equation.3 (
EMBED Equation.3 (
On voit ici quentre la médiane et Q1 les effectifs sont répartis sur un plus grand intervalle (2.68) quentre la médiane et Q3 (2.45)
Dispersion des valeurs :
Etendue
Létendue est la différence entre les valeurs extrêmes du caractère étudié :
E = xmax - xmin(
Plus létendue est faible, plus le caractère étudié est homogène. Exemple, à Abidjan lamplitude thermique annuelle à partir des données moyennes mensuelles est de 3.8° (27.8-24) alors quà Leningrad elle est de 26.3° (18.4-(-7.9)). Dans un cas le climat est plus contrasté que dans lautre.
Méfiance, car létendue traduit la dispersion de la série, mais à laide de deux valeurs uniquement, et en plus de manière imparfaite puisque les valeurs extrêmes sont souvent peu significatives, car exceptionnelles, accidentelles, voire fausses.
Autre inconvénient, cest que pour une même étendue, les valeurs peuvent être plutôt regroupées autour de la moyenne ou bien réparties dans létendue. Il faut donc traduire cette dispersion.
Lintervalle interquantile
On va se baser sur les quantiles pour mesurer la dispersion au centre de la distribution sans tenir compte des extrêmes.
On pourra alors utiliser lintervalle [Q1 ; Q3] (. La valeur de cet intervalle est appelée interquartile (I = Q3 - Q1) (. Plus I est grand, plus la dispersion est élevée et le phénomène hétérogène. Cependant il ne tient compte que de 50% des effectifs, ce qui entraîne une perte de linformation.
Lintervalle [D1 ; D9] aussi appelé interdécile (I = D9 - D1) ( est basé lui sur 80% des valeurs et a lintérêt de néliminer que les vraies valeurs extrêmes.
Lécart absolu moyen
En fait ce que lon cherche à faire sest mesurer la dispersion des valeurs (xi) de la série statistique autour de la position centrale de la moyenne ( EMBED Equation ). Donc on veut une quantité qui mesure lécart moyen par rapport à la valeur moyenne. Pour cela, la logique voudrait que lon mesure la différence entre chaque valeur xi et la moyenne, puis on fait la somme de toutes ces différences et on divise par le nombre de différence pour obtenir un écart moyen.
EMBED Word.Picture.8 (
Par calcul EMBED Equation Or le problème cest que EMBED Equation .(
Car étant donné les caractéristiques de la moyenne, par définition, les différences positives compensent les différences négatives dans la distribution
Pour éviter cela, certains utilisent alors la valeur absolue de la différence et font :
EMBED Equation (
On obtient ainsi lécart absolu moyen. Cet écart absolu moyen est peu utilisé en statistique, car la valeur absolue se prête mal aux calculs compliqués, on lui préfère une autre formulation.
La variance
En effet on préfère utiliser le carré de la différence EMBED Equation ( dont on sait en plus que la somme est non nulle, mais minimale !
En calculant la moyenne de ces écarts on obtient la variance EMBED Equation (
Attention, cette formule de variance nest valable que si les données concernent une population dans son ensemble.
Si vos données correspondent à un échantillon, tiré dune population
La variance sécrit EMBED Equation (

Pourquoi diviser par N-1 ?
Supposons que nous ne disposions que dun échantillon de 1 individu.
On peut estimer le poids moyen de la population : ce sera le poids de lindividu (ex : 65 kg).
Lécart-type calculé avec N donnerait une dispersion nulle, ce qui suggère que toute la population pèse précisément 65 kg !
Donc il faut utiliser N-1 pour indiquer que nous ne pouvons pas estimer la dispersion dans la population si notre échantillon ne comporte pas au moins 2 individus, (car on ne peut pas diviser par zéro).
On constate que si le N de léchantillon devient grand (> plusieurs milliers), alors
EMBED Equation.3 (

Pour faciliter les calculs : EMBED Equation (

Exemple à partir des données brutes : (
RangXX215025002603600nxnxn2moyenne EMBED Equation EMBED Equation
Si on dispose dune variable classée dont on connaît les fréquences (f) associées à chaque classe :
EMBED Equation (
Exemple : (
RangClasse XFréquenceFXFX²1[0 ;20[0.11.0102[20 ;40[0.051.545k[ak ;bk[fkfk(ak+bk)/2fk((ak+bk)/2)²moyenne EMBED Equation EMBED Equation
La variance nest quune étape intermédiaire de calcul, elle na pas de signification, mais elle est impliquée dans beaucoup de calculs qui cherchent à établir des relations entre variables (voir par la suite)
L'écart-type
La valeur de l'écart-type se déduit de celle de la variance. Il s'écrit (, et il se calcule simplement comme la racine carrée de la variance.
Pour une population
EMBED Equation (
Pour un échantillon
EMBED Equation (

L'écart-type est une valeur très importante car il nous donne une idée de la dispersion d'une variable autour de sa moyenne arithmétique. C'est aussi une valeur qui intervient dans de nombreux calculs.
Daprès les études menées, si la distribution de la population nest pas trop asymétrique, on sait que dans l'intervalle( :
( EMBED Equation - ( ; EMBED Equation + ( ( nous trouvons 68.3 % des effectifs
( EMBED Equation - 2( ; EMBED Equation + 2( ( nous trouvons 95.4 % des effectifs
( EMBED Equation - 3( ; EMBED Equation + 3( ( nous trouvons 99.7 % des effectifs
EMBED Word.Picture.6
Coefficients de dispersion relative
Les caractéristiques de dispersion que nous avons utilisées jusquà maintenant sont exprimés dans les mêmes unités que la variable étudiée. Si la variable est une longueur, lécart-type est une longueur, si elle est en Euros, lécart-type est en Euros
Ceci est un inconvénient quand on veut comparer la dispersion de caractères différents, ou encore de séries dun même caractère exprimées dans des unités différentes (la dispersion de la taille des anglais et français mesurée en pouce ou en centimètres).
En outre les variables peuvent être telles que le niveau moyen de lune des séries est nettement différent du niveau moyen de lautre série (salaire moyen des ouvriers et des cadres par exemple), ce qui influence évidemment les valeurs de lécart-type. (
EMBED Word.Picture.8 (
Cest pourquoi il faut éliminer linfluence de la variable étudiée, son unité de mesure et son niveau général. On utilise alors un coefficient de dispersion relatif.
Le coefficient interquartile ou interdécile
EMBED Equation.3 ( cest un nombre abstrait, CAD indépendant de lunité de la série. Pour le coefficient interdécile, la logique est la même EMBED Equation.3 (
Coefficient de variation
Le plus souvent on compare la valeur obtenue par l'écart-type avec la valeur moyenne pour obtenir ce que l'on appelle le coefficient de variation : C tel que :
EMBED Equation (
On l'exprime en %. Un coefficient de variation de 0,21 signifie que l'écart-type vaut 21% de la moyenne arithmétique. L'écart-type nous donne une mesure absolue de la dispersion, alors que le coefficient de variation nous donne une mesure relative, par rapport à la valeur moyenne.
Exemple
Exemple : précipitations annuelles (mm) entre 1941-1970(

MoyenneEcart-typeC (%)Coefficient interquartileBilma (Niger, climat saharien)1915791.2Niamey (Niger, climat sénégalien)592124210.2Kumasi (Ghana, climat soudanien)1511281190.3La dispersion absolue (écart-type) est plus grande à Kumasi quà Niamey, mais la dispersion relative est du même ordre : donc la variabilité absolue des phénomènes pluvieux est proportionelle à la valeur centrale. Par contre à Bilma, on obtient des valeurs élevées, alors que la dispersion absolue est faible.
Attention, cependant, ces coefficients deviennent de moins en moins valables quand les valeurs de la moyenne se rapprochent de 0 ! ! ! ! !
Entropie relative
En théorie de linformation, lentropie mesure le degré dincertitude sur la réalisation dun événement parmi dautres. Si tous les évènements ont la même probabilité de se réaliser, lincertitude est la plus grande et on dit que lentropie est maximale.
Mais si un événement a une très forte probabilité de se produire par rapport aux autres, lincertitude diminue, on sait que cest cet événement qui va arriver, lentropie est minimale.
Ainsi en utilisant des fréquences statistiques au lieu de probabilités on peut utiliser lentropie comme mesure de dispersion. Bien sûr ceci ne peut se calculer quà partir de variables ayant des classes et pour lesquelles on a calculé des fréquences.
EMBED Equation.3 EMBED Equation.3 (
k = nombre de classes
f = fréquence de la classe i
log = logarithme de base 10 et comme le log(0.3) est négatif, on transforme le résultat en valeur positive par le signe -

Comme résultat, E varie entre 0 et 1. Quand E vaut 0 les données sont concentrées sur une seule valeur et quand E vaut 1 elles sont toutes dispersées avec les mêmes fréquences.
Exemple : (
Evolution de la population départementale en région Rhône-Alpes :
186119461975HabitantsfHabitantsfHabitantsfAin3700.1093070.0893760.080Ardèche3890.1142550.0742560.054Drôme3270.0962680.0773620.076Isère5780.1705740.1668600.182Loire5370.1586320.1836960.147Rhône6620.1949190.26514300.302Savoie2750.0812360.0683050.064Haute-Savoie2670.0782710.0784480.095Total340513462147331Ecart-type138.5233.4270.9C0.490.810.69Entropie0.980.940.92Lécart-type augmente et donne limpression que la dispersion augmente. Or ceci est un pur effet mécanique, puisque la population totale augmente. Quand les effectifs augmentent, il est normal que lécart-type augmente, même si les proportions par département restent inchangées.
Le coefficient de variation nous apprend que dispersion par rapport à la valeur moyenne est plus faible en 1861
Lentropie, qui décroît, montre une tendance au regroupement de la population dans certains départements, et quil y a une modification des proportions (des fréquences). (voir graphique) (
Série centrée et réduite (standardisation)
Une série est dite centrée et réduite lorsque sa moyenne vaut 0 et son écart-type vaut 1. Si X est une série statistique de moyenne EMBED Equation.3 et décart-type ( alors la série X est centrée et réduite si Xi = (xi - EMBED Equation.3 ) / (.(
Donc pour transformer une série (X) en série centrée et réduite (X) il suffit de retrancher la moyenne et de diviser par lécart-type. On pourra ensuite vérifier que EMBED Equation.3 vaut 0 et (x vaut 1(.
Lobjectif : il est plus simple de travailler sur des séries centrées et réduites : les calculs se simplifient. On peut facilement comparer des séries entre elles puisque elles ont la même moyenne et le même écart-type.
Paramètres de forme
Nous avons vu quune distribution est dite symétrique si les observations sont également dispersées de part et dautre de la valeur centrale. Dans le cas contraire, la distribution est dite asymétrique ou dissymétrique.
La distribution peut également être plus ou moins aplatie au niveau de la valeur centrale en fonction de la concentration des effectifs.
Il faut caractériser la symétrie et laplatissement dune distribution au moyen de nombres indépendants des unités de mesures.
La dissymétrie
Dans une distribution symétrique, les valeurs de mode, médiane moyenne sont confondues et les quartiles sont équidistants de la valeur centrale. Ce nest pas le cas dans les distributions dissymétriques.
EMBED Word.Picture.8 (

Le coefficient de Pearson
On va utiliser la position de la moyenne par rapport au mode pour caractériser lasymétrie : on voit que dans une distribution dissymétrique la moyenne se déplace par rapport au mode, à droite ou à gauche, car elle est attirée par le grand nombre de valeurs extrêmes. Alors on va calculer la différence entre la moyenne et le mode et rapporter ceci à lécart-type pour obtenir un chiffre abstrait. Dans ce cas le coefficient dasymétrie (s) sécrit :
EMBED Equation.3 (
Comme la détermination du mode est malaisée par le calcul, on sait que :
EMBED Equation.3 doù EMBED Equation.3 (
Ce coefficient nest valable que pour les distributions modérément asymétriques. Il peut varier de 3 à +3 et vaut 0 pour une courbe symétrique. Le signe de ce coefficient nous donne lasymétrie et sa valeur nous renseigne sur lampleur de la déformation :
Lorsquil est inférieur à 0 la courbe est étalée à gauche (la valeur de la moyenne est inférieure à celle du mode).
Lorsquil est supérieur à 0, la courbe est étalée à droite (la valeur de la moyenne est supérieure à celle du mode..
Le coefficient de Yule
Il consiste à comparer létalement à gauche de la distribution par rapport à létalement à droite en se basant sur la position de la médiane dans lintervalle interquartile.
Nous avons vu que la médiane est attirée du côté où se trouvent les grands effectifs.
Lorsque la distribution nest pas symétrique, la médiane ne se situe pas au milieu de lintervalle interquartile. On va donc mesurer lécart entre la médiane et les bornes de cet intervalle:
Létalement à gauche est mesuré par (Me-Q1) et létalement à droite par (Q3-Me). Ensuite on fait la différence de ces étalements et on divise par leur somme :
EMBED Equation.3 Finalement EMBED Equation.3 (
S varie de 1 à +1 et un coefficient de 0 traduit une symétrie parfaite.
Lorsquil est inférieur à 0, la distribution est étalée à droite.
Lorsquil est supérieur à 0 la distribution est étalée à gauche.

Laplatissement
EMBED Word.Picture.8 (
Paramètres de concentration
Cette notion tient une place importante dans les études économiques : on parle de concentration des entreprises, concentration de la richesse
Pour déterminer la concentration il faut suivre plusieurs étapes :
1) Trouver la médiane des valeurs.
2) Trouver la médiale
3) Calculer lindice de concentration
EMBED Equation.3 (

Exemple :
Classes de salaires horaires (Euros)EffectifsEffectifs cumulésMasse salariale : effectif * salaireMasse salariale cumulée[2-4[551515[4-6[8134055[6-8[122584139[8-10[103590229[10-12[84388317Total433171) Trouver la médiane des valeurs.
Leffectif total est de 43. La médiane correspond donc à la (43+1)/2 = 22ème valeur. Cette valeur est comprise dans la classe [6-8[daprès la colonne des effectifs cumulés.
La formule sécrit donc (équation de proportionnalité) EMBED Equation.3
ainsi dans linterpolation la valeur cherchée (M) dépend de la valeur la plus faible de la classe (V=6), de la différence entre le rang de la valeur recherchée et les effectifs cumulés des classes précédentes (D=9), de leffectif de la classe (E=12) et de lamplitude de la classe (A=2). La médiane vaut 7.5.
2) Trouver la médiale des valeurs du caractère étudié. La médiale est telle que la valeur de tous les caractères supérieurs constitue une moitié et la valeur des caractères inférieurs une autre moitié. A ne pas confondre avec la médiane, qui est la valeur qui scinde les effectifs en deux parties égales.
On va rechercher, comme pour le calcul dune médiane, à quelle classe de salaire correspond la 159ème masse salariale (317+1)/2. Cette valeur est contenue dans la classe [8-10[. Par une interpolation linéaire on va trouver la médiale :
La formule sécrit donc (équation de proportionnalité) EMBED Equation.3 (
ainsi dans linterpolation la valeur cherchée (M) dépend de la valeur la plus faible de la classe (V=8), de la différence entre le rang de la valeur recherchée et les effectifs cumulés des classes précédentes (D=20), de leffectif de la classe (E=90) et de lamplitude de la classe (A=2). La médiale vaut 8.4.
3) On mesure lécart entre la médiale et la médiane :
Cet écart vaut 8.4-7.5 = 0.9. Cet écart traduit la concentration. Si cet écart est grand par rapport à létendue du caractère, la concentration est forte, sil est nul, la concentration est nulle, on est dans une égalité parfaite, dans cette hypothèse tous les salariés toucheraient le même salaire, la richesse est bien répartie.
4) Calculons IC. Dans cet exemple létendue vaut (12-2)=10, donc la concentration nest pas très élevée (0.9/10*100) = 9%. Lorsque la concentration est forte, peu de salariés perçoivent une part importante de la masse salariale.

Exercice
Soit deux candidats X et Y qui se présentent à un concours comportant 5 disciplines (de A à E). Leurs résultats sont portés dans le tableau ci-dessous.
ABCDEX51471212Y15121648
Quelle est l'homogénéité de leurs résultats ?
Calculer la moyenne de X : EMBED Equation = 50 / 5 = 10
Etablir le tableau suivant pour calculer l'écart-type :
SommeNote X5147121250x- EMBED Equation -54-3220(x- EMBED Equation )2251694458
On remarque que la somme des x- EMBED Equation vaut 0
EMBED Equation
Calculer le coefficient de variation C : C = 3,4 / 10 = 0,34
Faire pareil pour le candidat Y :
Moyenne de Y : EMBED Equation = 55 / 5 = 11
EMBED Equation
C = 4,47 / 11 = 0,40
Conclusion : le candidat Y a une moyenne supérieure à celle de X. Cependant ses résultats sont plus dispersés, aussi bien de façon absolue (écart-type), que de façon relative (coefficient de variation).

Construction des classes : discrétisation
Ce problème ne se pose que pour les variables quantitatives. Pour les variables qualitatives les classes correspondent à la nomenclature.
Discrétiser une variable quantitative se dit en langage courant "réaliser un découpage en classes". En statistiques, discrétiser c'est à la fois réaliser ce découpage, nommer et justifier les classes. Pour réaliser une discrétisation, il faut choisir le nombre de classes et les bornes de classe.
Quest-ce quune bonne discrétisation ? Intuitivement, un bon découpage correspond à des classes homogènes et séparées : les objets géographiques dune même classe doivent se ressembler plus entre eux quils ne ressemblent aux objets des autres classes.
Choix du nombre de classes
Le nombre de classes optimum à réaliser dans une partition est toujours fonction du nombre dindividus observés.
Il existe quelques formules "toute faites" pour déterminer à l'aveugle le nombre n de classes à partir du nombre N de données : (

Brooks-Carruthers : 5*log10(N)
Huntsberger : 1 + 3,332*log10(N)
Sturges : log2(N+1)

Deux autres formules, censées être plus précises, mettent en jeu le minimum a des données et le maximum b et utilisent aussi d'autres paramètres de la dispersion : (, l'écart-type et eiq l'écart interquartiles : (

Scott : (b-a)/(3.5*sig*N**(-1/3))
Freedman-Diaconis : (b-a)/(2*eiq*N**(-1/3))

Choix des bornes de classes
Il existe de nombreuses méthodes, dont la plupart ont des critères explicites de découpage et des formules mathématiques pour calculer les bornes. La plupart de ces méthodes supposent que le nombre de classes a été fixé. Nous ne présentons ici que quelques méthodes.
La méthode des quantiles ("des effectifs égaux")
Le critère visé est l'équirépartition, c'est à dire le même nombre de données par classe. Dans la version stricte, à partir du nombre du nombre N de données et du nombre n classes, on en déduit le nombre F d'individus par classe. On trie les données par ordre croissant et on met dans la classe 1 les F premières données, dans la classe 2 les F suivantes etc.
Un trop grand nombre de valeurs égales perturbe la discrétisation, aussi, dans la version relâchée, on met éventuellement plus de F données par classe car on force les données égales à être dans une même. Voici ce que cela donne sur un exemple de 6 valeurs avec 2 classes :

Données : 10 11 12 12 13 14
Version stricte : 1 1 1 2 2 2
Version relâchée : 1 1 1 1 2 2

La méthode des amplitudes
On garantit ici que le critère d'égalité d'amplitude de classe est respecté, l'amplitude étant la différence entre la plus grande valeur et la plus petite valeur. A partir du minimum global a des données et du maximum global b des données on calcule les bornes de classe hi à l'aide d'une simple progression arithmétique dont la raison est k=(b-a)/(n-1). Une variante de cette méthode consiste à prendre comme largeur k la valeur de l'écart-type des données. Si n est impair, la classe du milieu a pour bornes m-k/2,m+k/2 où m est la moyenne des données.
EMBED Word.Picture.8 Si n est pair, m est la borne supérieure de la classe numéro n/2.
EMBED Word.Picture.8
Cette méthode ne convient pas si la distribution des données est trop dissymétrique : les classes pourraient être très inégales et certaines vides !
Progression arithmétique ou géométrique
Les bornes supérieures des classes sont des multiples des classes précédentes ou calculées différemment.
EMBED Word.Picture.8
L'intérêt est de mieux étaler la répartition dans les faibles valeurs, plus finement représentées, par contre les fortes valeurs se retrouvent regroupées dans la dernière classe. Les classes sont donc d'amplitude croissante. Ceci ne peut sappliquer un un certain type de distributions
La méthode des moyennes emboitées
Le nombre de classes est ici une puissance de deux. On sépare l'intervalle de départ en deux en prenant comme valeur de séparation la moyenne globales des valeurs. On recommence ensuite en découpant chaque classe en deux en prenant comme valeur de séparation la moyenne des valeurs de la classe.

EMBED Word.Picture.8
Standard
On utilise la moyenne et lécart-type : toutes les classes ont la même amplitude, égale à lécart-type. Pour un nombre impair de classe, la moyenne se situe à la médiane de la classe centrale, et pour un nombre pair de classes, la moyenne se situe à la limite des classes. Très bonne méthode.
La méthode des grandes différences relatives
On trie les valeurs par ordre croissant puis on calcule les différences relatives successives entre une valeur et sa précédente. On change de classe lorsque la différence relative est supérieure à un seuil arbitraire, classiquement 50 %. Le nombre de classes n'est donc pas fixé a priori.
x1 x2 x3 x4 xn
dif = (xi xi-1) / xi-1 *100
Si dif > 50 on change de classe.
Libre
Si la série a une distribution par paquets séparés par des coupures significatives
On veut deux classes :
On scinde leffectif de part et dautre de la médiane ou de la moyenne.

PAGE

PAGE 1

Aparté 09. Indices de forme

Coefficient d'asymétrie
On pose EMBED Equation.3 .
On a EMBED Equation.3 si la distribution est étirée à droite, EMBED Equation.3 si la distribution est étirée à gauche, EMBED Equation.3 si la distribution est symétrique (par rapport à la moyenne).
Coefficient d'aplatissement (appelé aussi kurtosis)
On pose EMBED Equation.3

Le coefficient 3 au dénominateur est introduit pour que les distributions de probabilités normales (ou gaussiennes) aient un coefficient d'aplatissement égal à 1.
On a donc EMBED Equation.3 lorsque la distribution est de même aplatissement qu'une distribution normale, EMBED Equation.3 lorsque la distribution est plus plate, EMBED Equation.3 lorsque la distribution est moins plate.
Ce coefficient est relativement difficile à interpréter car visuellement on a l'impression que, pour une même moyenne, la distribution est d'autant plus plate que l'écart-type est grand alors que le coefficient d'aplatissement ne mesure pas cette impression visuelle. En effet, toutes les distributions normales ont le même coefficient d'aplatissement égal à 1.

Other exersises:

II. Propagation guidée des ondes électromagnétiques. - Td corrigé
3 électrophorèse en gel discontinu de polyacrylamide?sds
yaourt version prof
TD TVA - Exercices corriges
DOSAGE DES IONS CHLORURE DANS LE LAIT
UE de Biologie - Td corrigé
ACTIVITE COURS + TP : Qualité des eaux de consommation ...
Transmath 3e - Home - kenkaneki.ml
Transmath 1e Es Livre Du Professeur - oracheelolmaz.ml
Contrôle sur les triangles et les droites remarquables ? 5ème
Espagnol Tle Algo Mas Livre Du Professeur Programme 2011 - pikpi ...
Transmath 6e - ninay.ga - PDF E-Books Directory