Corrigé de l'exercice 1
N.B. Le texte contiendra au fur et à mesure de sa finalisation quelques liens
hypertexte de la table des matières vers l'énoncé et le corrigé de l'exercice ...
part of the document
BIOSTATISTIQUE, 2e édition, volume 1
Bruno Scherrer
CORRIGÉ DES EXERCICES DES CHAPITRES 1 À 4
Corrigé de lexercice 1.4
Lexercice nécessite environ une heure de travail.
Question 1 : Quelle est la population cible ?
La population cible est la population pour laquelle le médicament est destiné. Il sagit de colopathes adultes présentant une douleur abdominale mais pas de troubles organiques.
Question 2 : Quelle est la population statistique ?
Pour des raisons de sécurité et de réglementation la population statistique (effectivement étudiée) est plus réduite que la population cible et se limite aux patients acceptant de participer à un essai thérapeutique, consultant un médecin hospitalier (ce sont généralement des patients à douleur plus sévère ou plus chronique), âgés de plus de 18 ans et de moins de 60 ans, et utilisant des moyens de contraception efficace sil sagissait de femmes en âge de procréer.
Question 3 : Quel est lélément ?
Le patient est lélément échantillonné qui reçoit un traitement randomisé et sur lequel porte la mesure.
Question 4 : Que représente linvestigateur dans le processus déchantillonnage ?
Linvestigateur est une unité primaire et le patient une unité secondaire. Les unités secondaires sont imbriquées dans les primaires car linvestigateur a dans sa clientèle un ou plusieurs colopathes.
Question 5 : Le processus de sélection des éléments permet-il de constituer un échantillon aléatoire simple ?
Non, car les patients ne sont pas sélectionnés au hasard dans une liste exhaustive de patients répondant aux critères dinclusion et dexclusion.
Question 6 : Sagit-il dun échantillonnage sans remise ou avec remise ?
Il sagit dun échantillonnage sans remise car le même patient ne peut participer à deux reprises au même essai ou ne peut apparaître deux fois dans léchantillon.
Question 7 : Le processus de sélection des éléments conduit-il à un échantillon représentatif de la population cible ?
Non, pour des raisons de sécurité et de réglementation et également du fait que ni les investigateurs ni les patients ne sont choisis au hasard. Le biais de sélection est difficile à cerner mais il sagit probablement de patients plus handicapés que la moyenne par leur pathologie car ils consultent un médecin hospitalier et non leur médecin de ville traitant, acceptent de participer à un essai et doivent présenter une douleur au moins modérée au moment de linclusion dans lessai. Limpact potentiel du biais de sélection nécessite de savoir si leffet du traitement dépend de la sévérité des symptômes et du type de patient. On admet généralement quun traitement efficace sur des patients sévèrement atteints devrait lêtre sur des patients moins atteints.
Question 8 : Quelle est la variable étudiée ?
Lintensité de la douleur abdominale.
Question 9 : Quelle est léchelle de variation de la variable étudiée.
Il sagit dune variable catégorielle ordonnée. Léchelle de variation est donc ordinale.
Question 10 : La variable est-elle discrète ou continue ?
La variable sous-jacente (intensité de la douleur) est une variable continue. Le codage de 0 à 4 des niveaux dintensité rapportés par le patient correspond à une variable discontinue. La distance entre les niveaux est inconnue quantitativement. Notons quun niveau de léchelle est manquant et correspondrait à un état dinconfort gênant et entravant au moins parfois certaines activités quotidiennes.
Corrigé de lexercice 3.5
Cet exercice nécessite environ 4 heures de travail sil est effectué avec Excel® (3 heures jusquà la question 6 inclusivement) car les manipulations de données avec ce logiciel sont plutôt laborieuses. Lexercice est beaucoup moins long sil est effectué avec un logiciel de statistique.
Question 1 : Présenter les données saisies sous forme de matrice de données.
Importer le fichier sur Excel par un simple copier (fichier Word) coller (dans le tableur Excel). Ajouter lintitulé des variables pour éviter les confusions. Il sagit alors plus dun tableau de données quune matrice de données au sens strict et mathématique du terme (tableau de chiffres).
SujetTraitementType de dépressionMADRS V0MADRS VFDurée trtCGISortie dessai01A113714423001B40428421001C203337124101D30313421001E10415315301F21314421001G30268422001H103515422001I40328422001J303319383001K41252381001L2038382.202A30262974202B102543194102C21306421002E404735214102F41276421002G202610422002H31260421002I203943144102J303545144102K103125294102L40272411002M1129882303A40349421003B303614422003C104030424003D11274421003E21271772303F41313421003G20275421003H10282421003I30271421003J40321421004A103241124104B303848154104C403038244104D403210212304E102732134104F303511422004G203127274105A31293421005B212631284105D402620422005E113510421005F31256421005G402536144105H112610421005I202725423005J21291421005K403229214106A21272421006B102929421006C40301421006E3033336.306F103731284106G41439325306H313916412006I204027353006J20427362006K11363302307A40325421007B30390421007C20359421007D31295421007E21313125207F103231324107G403712422007H212813391007I312928385307J403312425007K112927224108A404336143208B203730284108C104721423008D30357422008E41327421008F203534224108G114327223108H303017422009A41369422009B20303421009C30275421009D103343154109E203416422009F303512422009G403321422209H10404844310A10394421010B304019303110C40395421010E20341421010F40412421010G204638384010H304012421010I403624424010J204133393010K104752144110L403510401010M203939154110N10316422010O303016362011A113211421011B30326421011C10294464111D20302915311E203034124111F402914422011H10278421011I304212422011J40444142311K10462421011L 203734134112A403910421012B10325421012C203235424012D303816422012E10299422012F204123422012G303735144112H403830422013A10348421013B30392421013C403636194113D20383835313E10297421013F30304421013G202712..313H103039134114A10374474214B40420421014C21306421014D304732183214E10306421014F205153144114G304525422014H40357391015A313112422015B10315361015C40324421015D203111422015E41309422015F20323225315G303214421015H403123312315I203534304115J103239134115K31297421016A21318422016B402615423016C10425421016D302818423016E40379422016F102713121316G30290421016H204244104117A11384165217B303030144317C21262421017D203710422017E112828145217F40254421017G30250421018A103022422018B40332421018C30430421018D203523423018E404221272118F3036363.318G203940344318H103311421018I403424422019A 403920312319B103310332319C20348421019D10354421019E203214182319G30279242319J40339422019K30302421020A314149144120B104145124120C21443425321D40416281321E203826422021F403226422021G304411421021H10328421021I40450421021J10433421021K30481421021L10277421021M203116423022A203016112322B40352421022C304614422022D104130283222E40419422022F30326421022G40277421022H10404421022I20452351023A203728284123B403640214123C103213411023D30328421023E404739184123F104643254123G304812422023H20363421023I40378421023J303128214123K40319421023L20326422023M102853610
Question 2 : Construire un tableau de distribution de fréquence de lamélioration (delta) des patients par niveau de traitement (dose).
Créer une nouvelle colonne (I) en se positionnant en « I1 » et en écrivant dans la fenêtre f(x) : =SOMME(E1;-F1), puis frapper sur la touche entrée. Etendre le résultat de la fonction en pointant le coin inférieur droit de la case I1 et en descendant le curseur jusquà la case I215.
Sélectionner la colonne I
Cliquer sur données, étendre la sélection, tri par colonne B puis par colonne I.
Les données sont alors classées par dose de traitement et par ordre croissant damélioration à léchelle MADRS.
Il faut alors compter pour chaque dose et chaque valeur damélioration leffectif.
Tableau éclaté (toutes les valeurs possibles) de distribution de fréquences
Améliorationplacebo100mg200mg300 mg-181000-170000-160000-151000-140000-130000-120000-110001-101020-92000-81010-72000-60000-52101-41301-31110-20200-1010002531113102111031111401005000062002701018120390100101211111001120203130110141120150310162100170000180330192021203111212016222142234121242332252115264360271302280144290013300010311002320011331211340003351101362010371010380000390011401001410000420001430110441000450001460000470010TOTAL55545155
Nombre optimal de classes
Comme les distributions sont plutôt asymétriques la formule 3.2 sera employée. En outre lintervalle de classe sera donné par la formule 3.3.
Dose(n10 log nkminmaxhplacebo7,4217,407,42-18448,36100 mg7,3517,327,35-5436,53200 mg7,1417,087,14-10477,98300 mg7,4217,407,42-11457,55
Pour éviter une trop grande perte dinformations, il vaut mieux des intervalles de classe plutôt trop petits que trop grand. Un intervalle de classe de 7 sera retenu pour les 4 groupes avec un point dancrage à (18. En diminuant lintervalle de classe les fluctuations fortuites sont plus importantes.
Distribution de fréquences des 4 groupes
Indice de classeLimite inférieurePlacebo100 mg200 mg300 mg-15-18,52000-8-11,58132-1-4,56166262,54617139,5510552016,513613112723,591116163430,563484137,521234844,50011TOTAL55545155
Question 3 : Que signifie une valeur négative de delta
Comme un score élevé à la MADRS correspond à un état dépressif sévère et que delta = V0 (VF, un delta positif est une amélioration du patient et un score négatif correspond à une détérioration. De toute évidence si delta = VF V0 la signification est inversée.
Question 4 : Représenter graphiquement les quatre distributions
Le polygone de fréquence sera retenu car il sagit dune variable (sous-jacente) continue et parce que cette représentation peut être aisément obtenu avec Excel.
Taper le tableau de distribution de fréquence dans le tableur.
Sélectionner les colonnes amélioration et effectifs de classe
Cliquer sur licône graphique puis sur nuage de points
Compléter la légende de labscisse et de lordonnée
Question 5 : Les patients saméliorent-ils avec un placebo ?
Le polygone de fréquence montre que la majorité des données ont une valeur supérieure à zéro. En sélectionnant dans le tableur à la colonne placebo les ligne damélioration au moins égales à 1 et en cliquant sur licône ( on constate que 47 patients sur 55 ce sont améliorés.
Question 6 : Ces graphiques mettent-ils en évidence un effet radical du traitement actif par rapport au placebo ?
Si lon compare les polygones de fréquence du placebo et de 100 mg, on constate que leffet du traitement nest pas du tout radical. Lamélioration sous placebo semble en fait plus grande que sous 100mg.
La comparaison du placebo avec 200 mg et nettement à lavantage de 200 mg et la comparaison du placebo avec 300 mg est encore plus évidente.
Question 7 : Construire un diagramme de dispersion portant en abscisse lamélioration globale mesurée à léchelle CGI et en ordonnée lamélioration du score à la MADRS
Copier la colonne G et coller la en J. Copier la colonne I et faite un collage spécial (Edition, collage spécial, valeur) en K. Supprimer les lignes de J et K avec une valeur manquante en J ou K (sinon le graphe peut poser problème). Sélectionner les colonnes J et K. Cliquer sur licône graphique puis cliquer sur nuage de points et compléter la légende de labscisse (CGI) et de lordonnée (amélioration).
Question 8 : Ce graphique révèle-t-il une relation entre léchelle CGI et la valeur de Delta ?
On constate que le score à léchelle CGI est dautant plus petit que lamélioration est grande avec une exception pour un score de 5 à la CGI qui ne concerne que très peu de patients par rapport aux autres scores CGI. Les fortes améliorations constatées pour un score de 5 et labsence damélioration pour un score de 1 pourraient être des erreurs (inversion de léchelle CGI) dévaluation des investigateurs. Le gestionnaire des données (Data manager) envoie habituellement une requête de confirmation ou de correction du résultat aux investigateurs concernés.
Question 9 : Construire un tableau de contingence reliant la variable abandon (sortie) à la variable traitement.
Excel : Copier la colonne H et coller en AA, copier la colonne I et faites un collage spécial (édition, collage spécial, valeurs) en AB.
Sélectionner les colonne AA et AB et faites un tri sur AA puis sur AB (Données, trier, premier tri AA et deuxième tri AB).
Compter par dose les 0, 1, 2 et 3, ou utiliser la fonction somme ( après sélection appropriée.
Placebo100 mg200 mg300 mgTotal0 essai mené à terme303038391371 abandon pour inefficacité151368422 abandon pour effet adverse4222103 abandon non lié au traitement695626TOTAL55545155215
Ce tableau inclut les raisons dabandon, pour obtenir la variable binaire « abandon » il suffit de faire la somme des lignes 1, 2 et 3.
Placebo100 mg200 mg300 mgTotalEssai mené à terme30303839137Abandon toute cause25 (45,45%)24 (44,44%)13 (25,49%)16 (29,09%)78 (36,27%)TOTAL55545155215
On constatera que la proportion dabandons est élevée (36,27%). Quelle savère plus élevée pour le placebo et la faible dose que pour les deux plus fortes doses.
Question 10 : Construire un tableau de contingence reliant les variables « raison dabandon » et traitement.
Il suffit de supprimer la première ligne du tableau éclaté et de recalculer les totaux marginaux. La cause dabandon ne semble pas fortement liée, si elle lest, à la dose administrée.
Placebo100 mg200 mg300 mgTotal1 abandon pour inefficacité151368422 abandon pour effet adverse4222103 abandon non lié au traitement695626TOTAL2524131678
Corrigé de lexercice 4.5
Cet exercice nécessite au moins 4 heures de travail avec Excel( mais moitié moins de temps avec JMP( (une fois familiarisé avec le logiciel).
Question 1 : Quel est le score médian sur la MADRS à VF des patients de chaque groupe ?
Solution avec JMP(
Cliquer sur « Analyze » puis sur distribution, Ycolumn (score visite finale) By (treatment)
Cliquer sur le triangle rouge à coté du nom de la variable, cliquer sur « display options » et sur « more moments » . Cliquer sur Edit et copy, ouvrez un document Word et cliquer sur coller pour obtenir la sortie dordinateur sur laquelle il est possible de travailler.
Placebo
Score MADRS VF
Quantiles
100.0%maximum52,00099.5%52,00097.5%50,40090.0%43,40075.0%quartile31,00050.0%median13,00025.0%quartile6,00010.0%4,0002.5%2,0000.5%2,0000.0%minimum2,000
Moments
Mean19,636364Std Dev15,546065Std Err Mean2,096231upper 95% Mean23,839049lower 95% Mean15,433678N55Sum Wgts55Sum1080Variance241,68013Skewness0,5680833Kurtosis-1,183773CV79,169775
100 mg
Score MADRS VF
Quantiles
100.0%maximum53,00099.5%53,00097.5%49,62590.0%38,50075.0%quartile34,00050.0%median23,00025.0%quartile7,75010.0%2,5002.5%1,0000.5%1,0000.0%minimum1,000
Moments
Mean21,259259Std Dev14,220879Std Err Mean1,9352165upper 95% Mean25,140807lower 95% Mean17,377711N54Sum Wgts54Sum1148Variance202,2334Skewness0,1216422Kurtosis-1,246868CV66,892637200 mg
Score MADRS VF
Quantiles
100.0%maximum49,00099.5%49,00097.5%48,70090.0%34,60075.0%quartile19,00050.0%median12,00025.0%quartile5,00010.0%0,2002.5%0,0000.5%0,0000.0%minimum0,000
Moments
Mean14,627451Std Dev13,075107Std Err Mean1,8308812upper 95% Mean18,304877lower 95% Mean10,950025N51Sum Wgts51Sum746Variance170,95843Skewness1,0575249Kurtosis0,431668CV89,387463
300 mg
Score MASRS VF
Quantiles
100.0%maximum40,00099.5%40,00097.5%39,60090.0%36,00075.0%quartile21,00050.0%median9,00025.0%quartile5,00010.0%2,0002.5%0,0000.5%0,0000.0%minimum0,000
Moments
Mean13,581818Std Dev11,792482Std Err Mean1,5900979upper 95% Mean16,769769lower 95% Mean10,393867N55Sum Wgts55Sum747Variance139,06263Skewness0,966576Kurtosis-0,286768CV86,825502
Réponse :
Médianes : Placebo : 13, 100 mg : 23, 200 mg : 12 et 300 mg : 9
On constate que la médiane du groupe 100 mg est très élevée par rapport à celle des autres groupes.
Solution avec Excel :
Revenir à la matrice de données.
Sélectionner les colonnes A à I
Trier selon la colonne B puis E (Données, trier, B, E)
Comme le groupe placebo est composé de 55 sujets, la médiane est la valeur du 28ème sujet soit 13
Le groupe 100 mg est composé de 54 sujets, la médiane est la valeur du 27ème sujet + du 28ème sur 2 soit (23+23)/2 = 23.
Le groupe 200 mg est composé de 51 sujets, la médiane est la valeur du 26ème sujet soit 12.
Le groupe 300 mg est composé de 55 sujets, la médiane est la valeur du 28ème sujet soit 9.
Pour obtenir directement ces chiffres, sélectionner une case vierge, cliquer sur la flèche à droite du signe ( puis cliquer sur autres fonctions, sélectionner la catégorie « statistiques » et cliquer sur médiane. Sélectionner ensuite les données sur lesquelles la médiane doit être calculée.
Question 2: Quel est le score modal sur la MADRS à VF des patients de chaque groupe ?
Solution avec Excel :
Cliquer sur une case vide, puis cliquer sur la flèche à droite de (, sélectionner « statitiques » puis cliquer sur mode. Sélectionner les données sur lequel le mode doit être calculé.
Le résultat nest pas pleinement satisfaisant car le mode calculé est alors la valeur de la variable ayant la plus forte fréquence. Compte tenu des fluctuations fortuites, il vaut mieux estimer le mode à partir dun tableau de distribution de fréquences et calculer le mode ajusté. Ceci sera fait avec le logiciel JMP(. Pour le faire avec Excel il faut revenir à lexercice 3.5 (plus laborieux).
Solution avec JMP( et la formule 4.5
Modifier le statut de la variable MADRS VF en passant de variable continue (C) à variable ordinale (O) et ce, en cliquant sur C et en choisissant O. Cliquer sur « Analyze » puis « Distribution » avec MADRS VF pour Y et le traitement dans la case « BY »
Placebo
MADRS VF
Frequencies
LevelCountProb220,03636320,03636440,07273550,09091620,03636720,03636840,07273910,018181030,054551120,036361320,036361410,018181510,018182110,018182210,018182510,018182720,036362810,018182910,018183020,036363120,036363210,018183920,036364120,036364330,054554420,036364510,018184810,018185210,01818Total551,00000
29 Levels
h = (52 (2) / 7,42 = 6,73 ( 7
Point dancrage : 0
Limites inférieures
de classe0714212835424956Effectifs de classe15142574710
Indice de la classe modale : 3
L : 0
(i = 15 0 = 15
(s = 15 14 = 1
Formule 4.5: mode ajusté = 0 + 7(15/16 = 6,56
100 mg
MADRS VF
Frequencies
LevelCountProb120,03704230,05556320,03704410,01852510,01852630,05556710,01852820,03704910,018521020,037041110,018521210,018521310,018521410,018521630,055561710,018522320,037042510,018522610,018522720,037042810,018522910,018523010,018523120,037043210,018523310,018523450,092593510,018523710,018523830,055563910,018524010,018524310,018524410,018525310,01852Total541,00000
35 Levels
h = (53 (1) / 7,35 = 7,07 ( 7
Point dancrage : 0
Limites inférieures
de classe0714212835424956Effectifs de classe12956127210
Classe modale : 3 et 31
L : 0 et 28
(i = 12 0 = 12 et 12 6 = 7
(s = 12 9 = 3 et 12 7 = 5
Formule 4.5: modes ajustés = 0 + 7(12/15 = 5,6 et 31 + 7(7/12 = 35,08
On constate quun deuxième mode apparaît pour des patients non répondeurs (mode = 35,08 très élevé).
200 mg
MADRS VF
Frequencies
LevelCountProb050,09804120,03922220,03922320,03922410,01961520,03922630,05882720,03922820,03922910,019611120,039221250,098041430,058821630,058821710,019611810,019611920,039222510,019612820,039222910,019613010,019613210,019613310,019613510,019613610,019614510,019614810,019614910,01961Total511,00000
28 Levels
h = (49 (0) / 7,14 = 6,86 ( 7
Point dancrage : 0
Limites inférieures
de classe0714212835424956Effectifs de classe171210162210
Classe modale : 3
L : 0
(i = 17 0 = 17
(s = 17 12 = 5
Formule 4.5: mode ajusté = 0 + 7(17/22 = 5,41
300 mg
MADRS VF
Frequencies
LevelCountProb020,03636120,03636250,09091310,01818430,05455520,03636620,03636730,05455830,05455980,145451030,054551220,036361410,018181510,018182020,036362120,036362310,018182420,036362610,018182910,018183010,018183510,018183630,054553810,018183910,018184010,01818Total551,00000
26 Levels
h = (40 (0) / 7,42 = 5,39 ( 7. Un intervalle de 7 sera toutefois utilisé pour pouvoir superposer les graphiques et tableaux de distribution de fréquences
Point dancrage : 0
Limites inférieures
de classe0714212835424956Effectifs de classe17194627000
Classe modale : 10
L : 7
(i = 19 17 = 2
(s = 19 4 = 15
Formule 4.5: mode ajusté = 7 + 7(2/17 = 7,82
Solution avec JMP( et le lissage kernel de courbe
Cliquer sur « analyze » puis sur « distribution », sélectionner la variable Y et la variable de classement « BY », puis cliquer sur le bouton rouge en face du nom de la variable, cliquer sur « fit distribution » puis sur « smooth curve » et enfin ajuster le paramètre de lissage avec le curseur « kernel ».
Placebo
Score à la MADRS VF
Nonparametric Density
Kernel Std6,277554
100 mg
Score à la MADRS VF
Nonparametric Density
Kernel Std3,135828200 mg
Score à la MADRS VF
Nonparametric Density
Kernel Std4,912044
300 mg
Score à la MADRS VF
Nonparametric Density
Kernel Std2,831239
Estimation du mode (kernel)
Placebo 7-8 (distribution très asymétrique)
100 mg : 6 et 33 (distribution bimodale)
200 mg : 7-8
300 mg : 7-8
Il existe un mode autour de 7 qui correspond aux répondeurs. Il existe une grande amplitude de valeurs pour les non-répondeurs à la thérapie. Le mode est le même quel que soit le traitement.
Question 3 : Interpréter les résultats obtenus sur la moyenne, la médiane et le mode.
Tableau extrait des sorties de JMP
MoyenneMédianeModePlacebo19,64136,56100 mg21,26235,6 et 35,08200 mg14,63125,41300 mg13,5897,82
La moyenne est aisément calculée avec Excel. Il suffit de cliquer sur une case vierge, de cliquer sur la flèche à droite de ( puis sur moyenne en sélectionnant les données pour lesquelles on désire la moyenne.
La même procédure est employée pour la médiane et le mode mais au lieu de cliquer sur la moyenne il faut cliquer sur autre fonction puis sur médiane.
Pour le groupe placebo la moyenne est supérieure à la médiane elle-même supérieure au mode ce qui témoigne dune forte asymétrie à droite de la distribution de fréquence.
Pour le groupe 100 mg la médiane et la moyenne sont du même ordre de grandeur et la courbe est bimodale avec un pic de répondeurs et un pic de non répondeurs
Pour le groupe 200 mg la moyenne est plus grande que la médiane mais pas de beaucoup.
Pour le groupe 300 mg, une forte asymétrie est toujours présente mais avec une moyenne est une médiane plutôt basses.
Les doses 200 et 300 mg ont des moyennes plus basses que les groupes placebo et 100 mg ce qui suggère un effet du traitement. Cet effet est beaucoup moins évident avec la médiane et avec le mode. La médiane du groupe 100 mg est de façon inattendue très élevée.
Il ny a pas de déplacement de la distribution selon les groupes de traitement mais un changement de forme de celle-ci.
Question 4 : Si pour apprécier lamélioration des patients, le rapport VF/V0 était utilisé que signifierait alors un score de 0,5, 1,0, et 1,5 ? Quel est le rapport moyen de chacun des groupes ?
Un score de 0,5 signifierait une diminution de moitié du score à la MADRS en fin dessai par rapport au début de lessai (amélioration de 50%). Un score de 1 serait alors un état stationnaire (amélioration nulle) et un score de 1,5 à une détérioration (élévation de la sévérité de 50%).
Le rapport moyen de chacun des groupes peut être calculé en effectuant le rapport de la moyenne à VF sur celle à V0 ou en effectuant la moyenne des rapports. Comme la somme des scores des sujets à VF et à V0 na aucun sens clinique et que le rapport individuel en a un, la moyenne des rapports est cliniquement plus pertinente que le rapport des moyennes.
Solution avec Excel
Se positionner sur la case J1, taper « =PRODUIT(E1;1/D1) » dans la fenêtre fx et frapper sur la touche entrée. La valeur du rapport doit safficher en J1. Etendre la fonction à toute la colonne J en cliquant sur le coin inférieur droit de la case J1 et en glissant le long de la colonne J jusquà la ligne 215. Comme les données sont déjà triées selon les groupes de traitement, il suffit alors de sélectionner une case vide, de taper sur la flèche à droite du signe (, puis de sélectionner autres fonctions, « statistiques » et « moyenne ». La moyenne sera calculée sur les données sélectionnées.
Placebo : 0,5826
100 mg : 0,6055
200 mg : 0,4237
300 mg : 0,3920
Lamélioration est en moyenne de 42% environ pour le groupe placebo, 39% pour le groupe 100 mg, elle atteint approximativement 58% pour le groupe 200 mg et 61% pour 300 mg.
Question 5 : Quelle est la variance de la MADRS à VF des patients de chaque groupe ?
Solution avec Excel
Se positionner sur une case vide du tableur, cliquer sur la flèche à droite du signe (, sélectionner « statistiques » puis « VAR ». La variance sera calculée sur les données sélectionnées.
Variance du groupe Placebo = 241,68
Variance du groupe100 mg = 202,23
Variance du groupe200 mg = 170,96
Variance du groupe300 mg = 139,62
Question 6 : Quel est le premier quartile et lécart interquartile sur la MADRS à VF des patients de chaque groupe de traitement ? Donner pour un groupe la signification biologique du résultat.
Solution avec Excel
Se positionner sur une case vide du tableur, cliquer sur la flèche à droite du signe (, sélectionner « statistiques » puis « Quartile ». Sélectionner les données sur lesquelles le quartile doit être calculé et taper 1 dans la fenêtre « QUART ». Le premier quartile saffichera. Si lon tape 3 dans la fenêtre « quart » le 3ème quartile saffichera.
Lécart interquartile est la différence entre le 3ème et le 1er quartile
Premier quartileTroisième quartileEcart inter quartile Placebo63125100 mg83426200 mg51914300 mg52116
On constatera que lécart interquartile est plus petit pour 200 et 300 mg (données plus regroupées) quavec le placebo et 100 mg.
Question 7 : Quel est le coefficient dasymétrie de la distribution de chacun des groupes ?
Solution avec JMP(
Revenir à la sortie dordinateur de la première question et lire le résultat à la rubrique « Moment » et « skewness ».
Placebo : 0,568
100 mg : 0,122
200 mg : 1,058
300 mg : 0,967
Solution avec Excel( (laborieux)
Se positionner en case 1 de la colonne J : taper dans la fenêtre fx : =SOMME(E1;- 19,6363) et frapper sur la touche entrée. La différence entre la première donnée et la moyenne du groupe placebo apparaît. Cliquer dans le coin inférieur droit de la case J1 et faite glisser le curseur sur toutes les données du groupe placebo. Vous obtenez lensemble des écarts à la moyenne du groupe placebo. Se positionner en case 1 de la colonne K : taper sur la flèche à droite du signe ( puis sur « autres fonctions » puis sur « toutes catégories » et sur « PUISSANCE ». Dans la fenêtre « Nombre », sélectionner les données du groupe placebo et dans la fenêtre puissance taper 3. Vous obtenez le cube des écarts à la moyenne de chaque donnée du groupe placebo. La somme (fonction ( = 111065,787 ) multipliée par 55 et divisée par 54 et par 53 donne lestimation du moment dordre 3 (formule 4.37) = 2134,388. A laide de la formule 4.38 on obtient le coefficient dasymétrie : g1 = 2134,388/((241,68)3= 2134,388/3757,17 = 0,568. Il suffit de recommencer avec les autres groupes.
Comme toutes les distributions on un coefficient dasymétrie positif les distributions sont allongées vers la droite. Notons quun coefficient égal à 1 correspond à une assez forte asymétrie.
Question 8 : Quel est le coefficient daplatissement de la distribution de chacun des groupes de traitement ?
Solution avec JMP.
Revenir à la sortie dordinateur de la question 1.
Lire le résultat à la rubrique « Kurtosis ». Le coefficient est alors centré sur 0 (courbe normale) et non sur 3. Il faut ajouter 3 à la valeur indiquée pour interpréter le coefficient selon les repères fournis dans le manuel.
Placebo : 1,8162 (distribution proche de la distribution uniforme)
100 mg : 1,7531 (même commentaire).
200 mg : 3,4317 (distribtuion légèrement leptocurtique)
300 mg : 2,7132 (distribution légèrement platicurtique)
Solution avec Excel( (laborieux)
Se positionner en case 1 de la colonne J : taper dans la fenêtre fx : =SOMME(E1;- 19,6363) et frapper sur la touche entrée. La différence entre la première donnée et la moyenne du groupe placebo apparaît. Cliquer dans le coin inférieur droit de la case J1 et faites glisser le curseur sur toutes les données du groupe placebo. Vous obtenez lensemble des écarts à la moyenne du groupe placebo. Se positionner en case 1 de la colonne K : taper sur la flèche à droite du signe ( puis sur « autres fonctions » puis sur « toutes catégories » et sur « PUISSANCE ». Dans la fenêtre « Nombre », sélectionner les données du groupe placebo et dans la fenêtre puissance taper 4. Vous obtenez la puissance 4 des écarts à la moyenne de chaque donnée du groupe placebo. La somme (fonction ( = 5617496,84) multipliée par 55 et par 56 est égale à 17301890267,2 et donne la partie gauche du numérateur de la formule 4.39. La partie droite sélève à 3(55 ( 1)[(55 1)( 241,68)] 2 = 27592049387 ,9. Lestimation du coefficient k4 sélève à : (69143,1 (formule 4.39). Le coefficient daplatissement est alors donné par la formule 4.40 : g2 = (69143,1 / 241,682 = (1,18. On retrouve le résultat fournit par JMP(. Il suffit de recommencer avec les autres groupes.
Attention, les formules 4.39 et 4.40 conduisent à un coefficient centré sur 0 lorsque la courbe est normale et non à un coefficient égal à 3 comme lindique le manuel (voir errata). Ce dernier savère correct pour une estimation de k4 = ((x()4/(n(1) (formule 4-27 de la première édition).
PAGE
Corrigé des exercices des chapitres 1 à 4
Biostatistique, 2e édition, volume 1
Bruno Scherrer
PAGE 22