{Large {f Trois méthodes non param'etriques pour l ... - Mistis
Une méthode empirique pour choisir et a été proposée par Yu et Jones (1998), ...
Une importante littérature est consacrée à ce sujet, et en particulier aux ... la
détermination de courbes de référence à partir de données d'une fiabilité
médiocre. ..... un interrogatoire et un examen médical cutané, ainsi qu'une
évaluation des ...
part of the document
Implémentation en C dEstimateurs non paramétriques de quantiles conditionnels
Application au tracé de courbes de référence -
Ali Gannoun1,2, Stéphane Girard3, Christiane Guinot4 et Jérôme Saracco1
1Laboratoire de Probabilités et Statistique, CC 051, Université Montpellier II,
Place Eugène Bataillon, 34095 Montpellier Cedex 5
e-mail : {gannoun,saracco}@stat.math.univ-montp2.fr
2Statistical Genetics and Bioinformatics Unit, National Human Genome Center,
Howard University, Washington D.C. 20059, USA
e-mail : agannoun@howard.edu
3 CE.R.I.E.S,
20, Rue Victor Noir, 92 521 Neuilly sur Seine Cedex
e-mail : christiane.guinot@ceries-lab.com
4SMS/LMC, Université Grenoble I,
38041 Grenoble Cedex 9
e-mail : Stephane.Girard@imag.fr
Résumé : Nous présentons ici trois méthodes destimation non paramétrique des quantiles conditionnels : une méthode d'estimation par noyau (cas unidimensionnel et multidimensionnel), la méthode de la constante locale et une méthode d'estimation par noyau produit. Nous décrivons ensuite ici limplémentation informatique en C de ces méthodes. Une interface avec les logiciels SAS, Splus et Gnuplot est donnée afin dappliquer les résultats au tracé de courbes de référence. Enfin, nous terminons en donnant une illustration. sur des données réelles concernant des propriétés biophysiques de la peau de femmes japonaises.
Mots-clés : Courbes de référence, quantiles conditionnels, méthode d'estimation par noyau, méthode de la constante locale, méthode d'estimation par noyau produit.
1. Introduction aux quantiles conditionnels et aux courbes de référence
Nous faisons dans cette partie une brève présentation de la notion de quantile conditionnel et de celle de courbes de référence. Pour avoir plus de détails et des références bibliographiques, nous renvoyons le lecteur à larticle Gannoun et al. (2002).
1.1. Quantiles conditionnels
Considérons deux variables quantitatives continues : une variable Y, appelée variable dintérêt, et une variable X, appelée covariable. Soit EMBED Equation.3 .
Le quantile conditionnel d'ordre ± de la variable Y sachant que X=x est défini de la manière suivante :
EMBED Equation.3
où F(.|x) désigne la fonction de répartition conditionnelle de Y sachant que X=x.
Une caractérisation alternative de quantile conditionnel EMBED Equation.3 est obtenue sous forme d'un problème d'optimisation (P) :
EMBED Equation.3
où EMBED Equation.3 est la fonction définie par : EMBED Equation.3
Plusieurs approches ont été développées pour l'estimation des quantiles conditionnels. L'approche paramétrique peut parfois être mal adaptée à la réalité des données en particulier biologiques. Une approche non paramétrique du problème a alors été développée afin de pallier les problèmes d'hypothèses et de modélisation paramétriques. De nombreux travaux récents ont été menés pour l'estimation non paramétrique des quantiles conditionnels aussi bien dans un cadre théorique que sur le plan des applications. Ces méthodes ne nécessitent pas d'hypothèse sur la nature de la distribution.
Nous présentons brièvement ici trois méthodes non paramétriques d'estimation des quantiles conditionnels et leur implémentation en C :
une méthode d'estimation par noyau,
la méthode de la constante locale (« local constant kernel estimation »),
une méthode d'estimation par noyau produit (« double kernel estimation »).
1.2. Courbes de référence
De nombreuses expérimentations, en particulier dans les domaines biomédical, biométrique et industriel, sont conduites pour établir des intervalles de valeurs qui sont prises « normalement » par une variable d'intérêt Y dans une population cible. Ici, le terme « normalement » fait référence aux valeurs que l'on est susceptible d'observer avec une probabilité donnée, dans des conditions normales et pour des individus types présumés en bonne santé ou sans défaut (les sujets de référence). Ces intervalles sont souvent appelés intervalles de référence et les valeurs correspondantes sont appelées valeurs de référence. Par exemple, on peut s'intéresser à un intervalle excluant les 5% d'observations les plus grandes et les 5% d'observations les plus petites. Ainsi, la construction d'intervalles de référence repose naturellement sur le calcul de quantiles.
Par ailleurs, il arrive régulièrement que, sur la population cible, l'on dispose simultanément, avec la variable d'intérêt Y, d'une information complémentaire sous la forme d'une covariable X. Pour une valeur donnée x de X, on peut construire un intervalle de référence. Lorsque x varie, on obtient alors des courbes de référence. Dans ce cadre-là, il est nécessaire de travailler avec les quantiles conditionnels de Y sachant X. Le tracé de courbes de référence sur le nuage des valeurs prises par le couple (X, Y) pour les sujets de référence donne un résumé graphique très utile et interprétable. Ainsi, un individu i représenté par le point EMBED Equation.3 pourra être comparé à la population de référence. En d'autres termes, cet individu sera suspectée dêtre « hors normes » si ce point se situe en dessous de la courbe de référence inférieure ou au dessus de la courbe de référence supérieure.
Plus précisément, pour une valeur x donnée et ±>1/2, l'intervalle de référence contenant 100(2±-1)% des sujets de référence est ensuite défini par : I±(x) EMBED Equation.3 . Les courbes de référence sont alors les ensembles de points EMBED Equation.3 et EMBED Equation.3 lorsque x varie. Soit EMBED Equation.3 un estimateur de EMBED Equation.3 à partir de l'échantillon EMBED Equation.3 de n réalisations indépendantes du couple (X, Y). L'estimateur correspondant de I±(x) est défini par : In,±(x) EMBED Equation.3 . En pratique, pour obtenir les courbes de référence à 90%, ± est choisi égal à 0.95.
En pratique pour estimer les courbes de référence, on évalue les quantiles conditionnels d ordres ± et 1-± sur un ensemble fini de T points EMBED Equation.3 . On obtient donc les ensembles des points EMBED Equation.3 et EMBED Equation.3 . Pour la représentation graphique des courbes de référence, une approche basique consiste à réaliser une interpolation linéaire entre ces différents points. Cependant les courbes obtenues avec cette approche présentent un aspect visuel non ``lisse''. Ainsi, pour pallier ce défaut, il est aussi possible dopter pour un lissage par la méthode du noyau (de type Nadaraya-Watson) de ces points, le noyau choisi étant le noyau normal et la fenêtre utilisée étant obtenue par validation croisée.
La suite de cet article est organisée de la façon suivante. Nous présentons rapidement dans la partie 2 les estimateurs non paramétriques des quantiles conditionnels mentionnés ci-dessus. Nous précisons également le choix des différents paramètres de lissage intervenant dans ces estimateurs. La partie 3 est consacrée à la description de limplémentation en C de ces estimateurs. Dans la partie 4, nous décrivons linterface avec dautres logiciels (Splus, SAS, Gnuplot) dans le cadre de lapplication au tracé de courbes de référence. La partie 5 montre une mise en oeuvre à une étude visant à établir des courbes de référence, en fonction de l'âge, de propriétés biophysiques de la peau de femmes japonaises.
2. Présentation rapide de méthodes non paramétriques destimation des quantiles conditionnels
Nous décrivons ici les trois méthodes d'estimation non paramétrique des quantiles conditionnels dans le cas où X est unidimensionnelle, ainsi quune généralisation de la première méthode au cas multidimensionnel. Les premier et troisième estimateurs reposent sur lestimation de la fonction de répartition conditionnelle puis sur son inversion pour obtenir une estimation du quantile conditionnel, le second estimateur est quant à lui un estimateur direct du quantile conditionnel.
2.1. Méthode 1 : méthode d'estimation par noyau
Définissons tout d'abord un estimateur non paramétrique de la fonction de répartition conditionnelle de Y sachant X=x, pour EMBED Equation.3 :
EMBED Equation.3 .
La fonction K, appelée noyau, est généralement une densité de probabilité. Le paramètre hn permet de contrôler le lissage appliqué aux données. Son choix en pratique est discuté dans le paragraphe 2.5.
Il est alors naturel d'estimer le quantile conditionnel EMBED Equation.3 par EMBED Equation.3 de la manière suivante :
EMBED Equation.3 .
2.2. Méthode 2 : méthode de la constante locale
Une approche linéaire locale a été développée pour résoudre le problème (P). Le quantile inconnu est approché par une fonction linéaire, pour z dans un voisinage de x :
EMBED Equation.3
la notation EMBED Equation.3 désignant la dérivée de EMBED Equation.3 . Localement, estimer EMBED Equation.3 est alors équivalent à estimer le coefficient a, et estimer EMBED Equation.3 revient à estimer b. Ainsi, on peut définir des estimateurs de EMBED Equation.3 et EMBED Equation.3 en minimisant par rapport à a et b la quantité
EMBED Equation.3
où EMBED Equation.3 et K désignent la fenêtre et le noyau mentionnés précédemment. Si b=0, on définit la méthode dite de la constante locale, et on obtient, pour EMBED Equation.3 , l'estimateur suivant :
EMBED Equation.3
Cette méthode directe d'estimation présente en particulier l'avantage d'un bon comportement face aux effets de bords.
2.3. Méthode 3 : méthode d'estimation par noyau produit
Une version plus « lisse » de l'estimateur de la fonction de répartition conditionnelle EMBED Equation.3 définie au paragraphe 2.1 peut être introduite en remplaçant la fonction indicatrice par une nouvelle densité symétrique É. 'estimateur correspondant, appelé estimateur par noyau produit est défini comme suit pour EMBED Equation.3 :
EMBED Equation.3
où EMBED Equation.3 est la fonction de répartition associée à EMBED Equation.3 . Cet estimateur peut également être vu comme l'intégrale de l'estimateur à noyau de la densité conditionnelle.
Il en découle naturellement un estimateur EMBED Equation.3 du quantile conditionnel défini par
EMBED Equation.3
Cette approche est attractive mais nécessite le choix de deux paramètres de lissage EMBED Equation.3 et EMBED Equation.3 . Il apparaît en pratique que cet estimateur est extrêmement sensible au choix de ces deux paramètres. Une méthode empirique pour choisir EMBED Equation.3 et EMBED Equation.3 a été proposée par Yu et Jones (1998), et sera décrite dans le paragraphe 2.5.
2.4. Cas multidimensionnel : méthode d'estimation par noyau
Le principe destimation est identique à celui décrit dans le paragraphe 2.1. La fonction de répartition conditionnelle est estimée non paramétriquement par la méthode du noyau. Formellement, cet estimateur a exactement la même écriture que dans le cas unidimensionnel du paragraphe 2.1, mais le noyau utilisé est une densité de probabilité multidimensionnelle. Par souci de simplicité, nous avons utilisé une densité multidimensionnelle définie par un produit de densités unidimensionnelles identiques. De même, le paramètre de lissage est choisi identique selon toutes les coordonnées. Le quantile conditionnel est alors estimé par inversion de lestimateur de la fonction de répartition conditionelle.
2.5. Choix des noyaux et des paramètres de lissage
Nous indiquons dans ce paragraphe les choix de noyaux et de fenêtres qui sont utilisés dans limplémentation en C de ces différentes méthodes.
Choix des noyaux : La qualité des estimateurs n'étant pas très affectée par le choix des noyaux, nous utilisons les noyaux K et EMBED Equation.3 suivants :
le noyau normal : EMBED Equation.3 pour EMBED Equation.3 ,
le noyau uniforme : EMBED Equation.3 pour EMBED Equation.3 .
Choix des paramètres de lissage : Le choix de la fenêtre est quant à lui crucial. La qualité des estimateurs non paramétriques basés sur les noyaux y est étroitement liée. Une importante littérature est consacrée à ce sujet, et en particulier aux méthodes de sélection automatique par minimisation d'un critère. La méthode de validation croisée entre dans ce cadre. Nous avons retenu les choix suivants pour les différentes fenêtres intervenant dans chacun des estimateurs.
- Pour l'estimateur EMBED Equation.3 , une approche dérivée du critère de validation croisée est utilisée (voir Yao (1999)) :
EMBED Equation.3
où EMBED Equation.3 est l'estimateur de EMBED Equation.3 $F(.|x)$ défini au paragraphe 2.1 mais calculé à partir de l'échantillon EMBED Equation.3 privé de la t-ème observation.
- Pour l'estimateur EMBED Equation.3 , Yu et Jones (1998) proposent la règle empirique suivante :
EMBED Equation.3
où EMBED Equation.3 est la fenêtre obtenue par validation croisée dans le cadre de la régression à noyau de Y sur X. Cette règle repose sur l'hypothèse de normalité de la loi conditionnelle de Y sachant X. Les fonctions Æ et ¨ sont respectivement la densité et la fonction de répartition de la loi normale centrée réduite. Dans les cas où ±=0,05 et ±=0,95, la table 1 de Yu et Jones (1998) donne EMBED Equation.3 .
- Pour l'estimateur EMBED Equation.3 , le choix de deux fenêtres est nécessaire. Nous utilisons encore les méthodes proposées par Yu et Jones (1998). Le choix EMBED Equation.3 de la première fenêtre est identique à celui de la fenêtre EMBED Equation.3 décrit par la formule précédente. Pour la sélection de la fenêtre EMBED Equation.3 , la règle suivante a été adoptée :
EMBED Equation.3
où EMBED Equation.3 est l'évaluation de l'expression (\ref{deux}) lorsque ±=0,5.
L'utilisation de telles règles empiriques présente l'avantage d'une mise en oeuvre simple et rapide. Cependant cet avantage est acquis au prix d'une perte de généralité due à l'ajout d'une hypothèse de normalité.
2.6. Remarques
Les approches non paramétriques présentées ici sont robustes, et les courbes de référence sont ainsi déterminées sans détection préalable des points aberrants. Dans les études empiriques que nous avons réalisées (voir Gannoun et al. (2002)), il apparaît que deux des estimateurs non paramétriques fournissent des courbes de référence acceptables pour la presque totalité des variables étudiées. Cette analyse statistique peut ainsi être très utile pour la détermination de courbes de référence à partir de données d'une fiabilité médiocre. Le troisième estimateur (méthode d'estimation par noyau produit) pose encore quelques problèmes pratiques provenant du choix des fenêtres, d'autres règles doivent être étudiées. Deux possibilités peuvent être envisagées : une méthode de type validation croisée, ne nécessitant pas d'hypothèse sous-jacente mais numériquement coûteuse, ou le développement d'une règle empirique plus adaptée à la nature du bruit observé.
3. Implémentation en C
Deux programmes en C ont été développés : le premier « estimateurV2 » concerne le cas où la covariable X est unidimensionnelle et permet destimer les quantiles conditionnels avec les trois méthodes non paramétriques décrites précédemment ; le second « multiestimateur » permet de faire lestimation non paramétrique (par noyau) des quantiles conditionnels lorsque la covariable est multidimensionnelle.
Ces deux programmes permettent destimer les quantiles conditionnels dordre ± à partir des données EMBED Equation.3 sur une grille EMBED Equation.3 , la covariable et les points de la grille d évaluation ayant même dimension. Dans les fichiers de données ou de grille, les individus sont en ligne et les séparateurs sont des espaces.
3.1. Cas unidimensionnel : programme « estimateurV2 »
Un fichier de paramètres (appelé ici « essai.par » ) doit tout dabord être complété avant de lancer lexécution des calculs de quantiles conditionnels.
Exemple de fichier « essai.par » (environnement Linux pour les répertoires) :
Methode_________________________________________: 1
Lissage_Quantiles_Conditionnels_(1=oui)_________: 1
Repertoire_Donnees______________________________: ../Donnees/
Repertoire_Resultats____________________________: ../Resultat/
Nom_Fichier_Donnees_____________________________: donnees
Ordre_Quantile_[1_100]__________________________: 95
Nombre_Essais_Calcul_Quantile___________________: 20
Nom_Fichier_Points_Evaluation_Quantile__________: grille.dat
Nombre_Essais_Recherche_H_Optimal_______________: 20
H_Optimal(aux_si_methode=3)__si_0_ci_dessus_____: 8
Les différents paramètres sont les suivants :
Methode : 1, 2 ou 3 en fonction de la méthode de calcul désiré pour les quantiles conditionnels ;
Lissage_Quantiles_Conditionnels_(1=oui) : 1 pour oui ou 0 pour non si lutilisateur désire ou non une lissage par noyau des points EMBED Equation.3 , ceci donnera lieu à la création dun fichier de sortie supplémentaire portant lextension « .lis » ;
Repertoire_Donnees : il sagit dindiquer ici ladresse du répertoire dans lequel se trouve le fichier des données EMBED Equation.3 ;
Repertoire_Resultats : il sagit dindiquer ici ladresse du répertoire dans lequel seront stockés les différents fichiers de résultats ;
Nom_Fichier_Donnees : il s agit données ici le nom du fichier des données, ce dernier doit avoir l extension « .dat », extension qu il ne faut pas préciser dans le fichier de paramètres ;
Ordre_Quantile_[1_100] : il faut préciser ici l ordre ± du quantile conditionnel, attention le programme estime automatiquement les quantiles conditionnels d ordres ± et 1-± ;
Nombre_Essais_Calcul_Quantile : il s agit ici de préciser, pour les méthodes 1 et 3, le nombre désiré de pas dans l inversion de la fonction de répartition conditionnelle afin dobtenir une estimation du quantile conditionnel ;
Nom_Fichier_Points_Evaluation_Quantile : il sagit dindiquer ici le nom du fichier contenant la grille EMBED Equation.3 sur laquelle vont être estimés les quantiles conditionnels, ce dernier na pas dextension par défaut et doit se situer dans le même répertoire que celui du fichier des données EMBED Equation.3 ;
Nombre_Essais_Recherche_H_Optimal : il sagit ici de préciser, pour les différentes méthodes, le nombre désiré dessais dans la recherche automatique (selon les critères présentés précédemment) de la ou des fenêtres optimales, si lutilisateur précise 0 (zéro), la ou les fenêtres optimales ne seront pas recherchées automatiquement mais les valeurs seront précisées par lutilisateur à la ligne suivante du fichiers de paramètres ;
H_Optimal(aux_si_methode=3)__si_0_ci_dessus : si lutilisateur a décidé de ne faire une recherche automatique de la ou des fenêtres optimales, il doit préciser ici la ou les valeurs choisies « arbitrairement » : une fenêtre EMBED Equation.3 pour les méthodes 1 ou 2, ou deux fenêtres EMBED Equation.3 et EMBED Equation.3 pour la méthode 3.
Après avoir lancé les calculs à partir ce fichier de paramètres (taper par exemple la commande ./estimateurV2 essai.par dans lenvironnement Linux), les calculs vont seffectuer en une ou plusieurs étapes :
- Etape 1 : recherche (si nécessaire) de la ou des fenêtres optimales,
- Etape 2 : calcul des quantiles conditionnels d ordres ± et 1-± sur les points de la grille,
- Etape 3 : lissage éventuel des quantiles conditionnels.
A l issu des ces tapes de calculs, plusieurs fichiers (3 s il n y a pas de lissage des quantiles conditionnels, ou 5 sinon) seront créés dans le répertoire des résultats. Avant de donner leur description ci-après, précisons que les noms de tous ces fichiers commencent par est1. (ou est2. ou est3.) en fonction de la méthode de calcul choisie, suivi du nom du fichier des données (ici donnees.). Par exemple, les fichiers disponibles sont :
est1.donnees.CV : ce fichier contient (en ligne) les points EMBED Equation.3 concernant la recherche des fenêtres optimales par validation croisée (il sagit de la recherche de EMBED Equation.3 pour lestimateur 1, et de la recherche de EMBED Equation.3 pour les estimateurs 2 et3).
est1.donnees.Qn5 : ce fichier contient (en ligne) les points EMBED Equation.3 .
est1.donnees.Qn5.lis : ce fichier contient (en ligne) une version lissée par noyau du nuage des points précédents : EMBED Equation.3 .
est1.donnees.Qn95 : ce fichier contient (en ligne) les points EMBED Equation.3 .
est1.donnees.Qn95.lis : ce fichier contient (en ligne) une version lissée par noyau du nuage des points précédents : EMBED Equation.3
A titre indicatif, le temps nécessaire au calcul et au lissage des quantiles conditionnels dordre 5% et 95% est de 2 minutes 30 secondes sur un Pentium III, 450 Mhz dans les conditions suivantes : n=200 points, grille de T=20 points, 20 itérations pour le calcul des quantiles conditionnels, 20 itérations pour la recherche du paramètre de lissage optimal.
3.2. Cas multidimensionnel : programme « multiestimateur »
Ici aussi, un fichier de paramètres (appelé ici « essaimulti.par » ) doit tout dabord être complété avant de lancer lexécution des calculs de quantiles conditionnels.
Fichier « essaimulti.par » (environnement Linux pour les répertoires) :
Repertoire_Donnees______________________________: ../Donnees/
Repertoire_Resultats____________________________: ../Resultat/
Nom_Fichier_Donnees_____________________________: donneesmulti
Dimension_Covariable____________________________: 3
Ordre_Quantile_[1_100]__________________________: 95
Nombre_Essais_Calcul_Quantile___________________: 20
Nom_Fichier_Points_Evaluation_Quantile__________: grille3D.dat
Nombre_Essais_Recherche_H_Optimal_______________: 20
H_Optimal(aux_si_methode=3)__si_0_ci_dessus_____: 8
La plupart des paramètres sont identiques à ceux nécessaires dans le cadre unidimensionnel. Les seuls changements notables sont les suivants :
il ny a plus de choix pour la méthode destimation (seule la méthode destimation par noyau est disponible),
il faut préciser la dimension de la covariable (ligne Dimension_Covariable),
il ny a pas possibilité de faire du lissage a posteriori des quantiles conditionnels estimés (on lisserait une hyper-surface et non plus une courbe, cela reste techniquement possible mais cela nécessiterait un grand nombre de points sur la grille multidimensionnelle).
Rappelons que le choix de lordre ± du quantile conditionnel entraîne aussi automatiquement le calcul du quantile conditionnel d ordre 1-±.
Après avoir lancé les calculs à partir ce fichier de paramètres (taper par exemple la commande ./multiestimateur essaimulti.par dans l environnement Linux), les calculs vont s effectuer en une ou plusieurs étapes :
- Etape 1 : recherche (si nécessaire) de la fenêtre optimale,
- Etape 2 : calcul des quantiles conditionnels d ordres ± et 1-± sur les points de la grille.
A l issu des ces tapes de calculs, trois fichiers sont créés dans le répertoire des résultats. Les noms de ces fichiers commencent par est1., suivi du nom du fichier des données (ici donneesmulti.). On retrouve ainsi les fichiers : est1.donneesmulti.CV, est1.donneesmulti.Qn5 et est1.donneesmulti.Qn95.
Le temps de calcul nécessaire est proportionnel au nombre de covariables. Pour une seule covariable, le temps est de 2 minutes 30 dans les conditions décrites au paragraphe 3.1.
4. Interface avec dautres logiciels : application au tracé de courbes de référence
Il sagit ici de fournir des petits programmes (en Splus, SAS et Gnuplot) permettant de représenter le nuage des points et de tracer les courbes de référence correspondantes dans le cas unidimensionnel, à partir du fichier des données (par exemple : donnees.dat) ainsi que des fichiers de sorties obtenus par les programmes C précédents (par exemple avec la méthode destimation 1 et en ayant demandé un lissage a posteriori des quantiles conditionnels : est1.donnees.CV, est1.donnees.Qn5, est1.donnees.Qn5.lis, est1.donnees.Qn95 et est1.donnees.Qn95.lis). On supposera que ces fichiers sont contenus dans le répertoire « C:\Temp » dans lenvironnement Windows, en ce qui concerne les interfaces Splus et SAS.
4.1. Interface avec Splus
# Recuperation des donnees et des resultats dans des objets Splus
#================================================================
donnees_matrix(scan("c:\\Temp\\donnees.dat"),ncol=2,byrow=T)
quant5_matrix(scan("c:\\Temp\\est1.donnees.Qn5"),ncol=2,byrow=T)
quant95_matrix(scan("c:\\Temp\\est1.donnees.Qn95"),ncol=2,byrow=T)
quant5lis_matrix(scan("c:\\Temp\\est1.donnees.Qn5.lis"),ncol=2,byrow=T)
quant95lis_matrix(scan("c:\\Temp\\est1.donnees.Qn95.lis"),ncol=2,byrow=T)
CV_matrix(scan("c:\\Temp\\est1.donnees.CV"),ncol=2,byrow=T)
# Fonction permettant de tracer le nuage de points et les courbes de reference
#=============================================================================
graphCourbesRef_function(donnees,quant5, quant95){
xmin_min(donnees[,1],quant5[,1])
xmax_max(donnees[,1],quant5[,1])
ymin_min(donnees[,2],quant5[,2],quant95[,2],quant5lis[,2],quant95lis[,2])
ymax_max(donnees[,2],quant5[,2],quant95[,2],quant5lis[,2],quant95lis[,2])
plot(donnees,pch=3,xlim=c(xmin,xmax),ylim=c(ymin,ymax),xlab="x",ylab="y")
par(new=T)
plot(quant5,type="l",lty=1,xlim=c(xmin,xmax),ylim=c(ymin,ymax),xlab="x",ylab="y")
par(new=T)
plot(quant95,type="l",lty=1,xlim=c(xmin,xmax),ylim=c(ymin,ymax),xlab="x",ylab="y")
par(new=F)
}
# Trace des courbes de reference sans puis avec lissage a posteriori
#===================================================================
graphCourbesRef(donnees,quant5, quant95)
graphCourbesRef(donnees,quant5lis,quant95lis)
# Trace du critere de validation croisee
#=======================================
plot(CV[,1],CV[,2],xlab="h",ylab="CV(h)",type="l")
La figure 1.1 représente le nuage des points et les courbes de référence à 90% sans quil ny ait eu de lissage a posteriori des quantiles conditionnels. La figure 1.2 donne le graphique du critère de validation croisée ayant permis de déterminer la fenêtre optimale. Ces graphiques ont été obtenues avec le programme Splus ci-dessus.
1. Nuage de points et courbes de référence
2. Critère de validation croiséeFigure 1 : Exemple de sorties graphiques obtenues avec Splus
4.2. Interface avec SAS
/* Recuperation des donnees et des resultats dans des tables SAS */
/*****************************************************************/
data donnees;
infile 'c:\Temp\donnees.dat';
input X Y;
run;
data quantile5;
infile 'c:\Temp\est1.donnees.Qn5';
input Z qn5;
run;
data quantile95;
infile 'c:\Temp\est1.donnees.Qn95';
input Z qn95;
run;
data quantile5lis;
infile 'c:\Temp\est1.donnees.Qn5.lis';
input Z qn5lis;
run;
data quantile95lis;
infile 'c:\Temp\est1.donnees.Qn95.lis';
input Z qn95lis;
run;
data globale;
set donnees quantile5 quantile95 quantile5lis quantile95lis;
run;
data CV;
infile 'c:\windows\bureau\Modulad_C\est1.donnees.CV';
input h CV;
run;
/* Graphiques du nuage de points et des courbes de reference */
/*************************************************************/
symbol1 v=plus i=none;
symbol2 v=none i=join;
/* sans lissage a posteriori */
proc gplot data=globale;
plot Y*X=1 qn5*Z=2 qn95*Z=2 / overlay;
run; quit;
/* avec lissage a posteriori */
proc gplot data=globale;
plot Y*X=1 qn5lis*Z=2 qn95lis*Z=2 / overlay;
run; quit;
/* Graphique du critere de validation croisee */
/**********************************************/
proc gplot data=CV;
plot CV*h=2;
run; quit;
!&NO~¡¢µ¶ÈÉÊËíÛÉ´É´ÉzezezezeQChoV¹CJOJQJ^JaJ&hoV¹hÿPH5CJOJQJ\^JaJ)hÊhÊ5CJH*OJQJ\^JaJ&hoV¹hoV¹5CJOJQJ\^JaJ hÿPHhÿPHCJOJQJ^JaJ)hoV¹hÿPH5;CJOJQJ\^JaJ)hoV¹h>5;CJOJQJ\^JaJ#hoV¹5;CJOJQJ\^JaJ#h»c5;CJOJQJ\^JaJ#h(ej5;CJOJQJ\^JaJOÊË M Ï ý
*
^
÷ïçççßß××××ß×$a$gdÁb:>$
Æb @` Àà
@`
Àà @` Àà @` À!à"$7$8$H$a$gdtm$a$gdtm$a$gd-;$a$gdoV¹$a$gd>$a$gd(ej$
Æb @` Àà
@`
Àà @` Àà @` À!à"$7$8$H$a$gdtm$a$gdÁb:á
â
ã
ä
ê
I¼ÀÏêëì;ñ8
P
Q
Z
[
öâÔ½©©p\\©\p©©Ep,htmhÁb:56CJOJQJ\]^JaJ&h(ejh(ej6CJOJQJ]^JaJ h(ej6CJOJQJ]^JaJ&h(ejhtm6CJOJQJ]^JaJ&h(ejh~SU6CJOJQJ]^JaJ&h(ejhÁb:6CJOJQJ]^JaJ,h(ejhÁb:56CJOJQJ\]^JaJh=7ÓCJOJQJ^JaJ&hÁb:hÁb:6CJOJQJ]^JaJhtmhtm6][
\
]
i
q
r
s
~
®
É
Ê
Ì
ò
ó
ô
õ
ø
-!jzZB
h«>¬>¿>À>î×Å´£ÅmÅ£[MÁ>Â>à>ã>??? ?!?"?#?/?0?B?D?V?W?j?k?l?m??©?èÖÅ·ÅÖ·¦Ö·Å{ÅmÅÖ·\EÖÅ·-jahdnhÌ`¥CJEHòÿOJQJU^JaJ!j0ZB
hÌ`¥OJQJUV^Jhb\CJOJQJ^JaJ&hhÆh=7Ó6CJOJQJ]^JaJ-jï}hhÆhhÆCJEHôÿOJQJU^JaJ!j¶ZB
hhÆOJQJUV^JhhÆCJOJQJ^JaJ hÿPHh=7ÓCJOJQJ^JaJ#jhhÆCJOJQJU^JaJ-j¸{hhÆhhÆCJEHòÿOJQJU^JaJ©?ª?«?¾?¿?À?Á?Â?Å?Æ?Ù?Ú?Û?Ü?R@T@j@l@v@x@z@|@AA(A*A,A.AJAXAAòàÒÁªààÒzcàÒOOÒOOÒÒ&h/I'h/I'6CJOJQJ]^JaJ-j
h¼K¯h¼K¯CJEHòÿOJQJU^JaJ!jjrbB
h¼K¯OJQJUV^J hÿPHh=7ÓCJOJQJ^JaJhhÆCJOJQJ^JaJ-j£h¼K¯h¼K¯CJEHâÿOJQJU^JaJ!jçrbB
h¼K¯OJQJUV^Jh¼K¯CJOJQJ^JaJ#jh¼K¯CJOJQJU^JaJh=7ÓCJOJQJ^JaJA¾ABB8BnBªB¬BÒBÔBÖBØBÚBàBCC,C.C0C2CDD'D(DòáòáòáÏò¾§ÏòáyhQáy@!jæZB
hÌ`¥OJQJUV^J-j·hdnhÌ`¥CJEHòÿOJQJU^JaJ!jZB
hÌ`¥OJQJUV^JhÌ`¥CJOJQJ^JaJ#jhÌ`¥CJOJQJU^JaJhb\CJOJQJ^JaJ-jh¼K¯h¼K¯CJEHòÿOJQJU^JaJ!jÕqbB
h¼K¯OJQJUV^J#jh¼K¯CJOJQJU^JaJ hÿPHh=7ÓCJOJQJ^JaJh¼K¯CJOJQJ^JaJ(D)D*DfDgDzD{D|D}DD
DDDÀDÁDÔDÕDÖD×DøDúDûDüDèÖÅÖ·¦ÖÅ·Å·ÅÖ·~gÖÅYK9#jhm_CJOJQJU^JaJh=7ÓCJOJQJ^JaJhÙ9¢CJOJQJ^JaJ-jÜhÌ`¥hg)´CJEHòÿOJQJU^JaJ!jYZB
hg)´OJQJUV^J-jìhÌ`¥hÌ`¥CJEHôÿOJQJU^JaJ!j
ZB
hÌ`¥OJQJUV^JhÌ`¥CJOJQJ^JaJ hÿPHh=7ÓCJOJQJ^JaJ#jhÌ`¥CJOJQJU^JaJ-jëhÌ`¥hÌ`¥CJEHòÿOJQJU^JaJüDEEEEEEE*E+E,E-E.EFFFrFòáʸ§yhQy@y2@h¼K¯CJOJQJ^JaJ hÿPHh=7ÓCJOJQJ^JaJ-jmh'h'CJEHòÿOJQJU^JaJ!jòibB
h'OJQJUV^Jh'CJOJQJ^JaJ#jh'CJOJQJU^JaJh/I'CJOJQJ^JaJ hÿPHhg)´CJOJQJ^JaJ#jhm_CJOJQJU^JaJ-jÞh/I'h'CJEHºÿOJQJU^JaJ!j«hbB
h'OJQJUV^Jhm_CJOJQJ^JaJrF¬F`GbG¸GºG¼G¾GÜGäGôGöGHHHHHH!H)H*HÁHÞH II»J½JÍJÎJæJçJ"K#KKK®K¯KÆKòáòáòáÓ¿± ± ± ± ± ± ± ± ± vb&h'h'5CJOJQJ\^JaJh'CJOJQJ^JaJhÙ9¢CJOJQJ^JaJhpßCJOJQJ^JaJ hÿPHhpßCJOJQJ^JaJhE6ØCJOJQJ^JaJ&hE6ØhE6Ø5CJOJQJ\^JaJh)CJOJQJ^JaJ hÿPHh=7ÓCJOJQJ^JaJhÌ`¥CJOJQJ^JaJ%ÜG®K¯KÆKZMPPFPßPàP.QbQQÔQRMR÷ïïçßçïïïï´´+$d%d&d'd7$8$H$NÆÿOÆÿPÆÿQÆÿgd8
F+$d%d&d'd7$8$H$NÆÿOÆÿPÆÿQÆÿgd#{5$a$gdz3$a$gdcÝ$a$gd)$a$gdE6ØÆKýK L-L.LÃLÒLYMZMNN.N0NVNXNZN\N|N~N¤N¦N¨NªNòÞòÊòÞò¼®®®yb®®Q:-j4hz3hVAÝCJEHôÿOJQJU^JaJ!jsB
hVAÝOJQJUV^J-jÄhz3hz3CJEHôÿOJQJU^JaJ!jÁsB
hz3OJQJUV^J#jhz3CJOJQJU^JaJ"hz3CJOJQJ^JaJmHsHhz3CJOJQJ^JaJh'CJOJQJ^JaJ&hcÝhcÝ6CJOJQJ]^JaJ&hcÝhcÝ5CJOJQJ\^JaJhcÝCJOJQJ^JaJªNDOPPPFPmPvPÞPßPàPìPõPþPQ+Q.QuQòäÓű££seWCWeW5h#{5CJOJQJ^JaJ&h@aºh#{56CJOJQJ]^JaJh#{5CJOJQJ^JaJh8
FCJOJQJ^JaJh@aºCJOJQJ^JaJh'CJOJQJ^JaJ&hähä6CJOJQJ]^JaJhäCJOJQJ^JaJ&h'h'5CJOJQJ\^JaJhcÝCJOJQJ^JaJ hz3häCJOJQJ^JaJh¨^>^^>^>^?h
3¬h¢}15CJOJQJ\^JaJfHmH qÊ
ÿÿÿÿsH 9h
3¬h¢}1CJOJQJ^JaJfHmH qÊ
ÿÿÿÿsH 7h
3¬h¢}15CJOJQJ\^JaJfHqÊ
ÿÿÿÿ1h
3¬h¢}1CJOJQJ^JaJfHqÊ
ÿÿÿÿhoACJOJQJ^JaJ&hoAhoA5CJOJQJ\^JaJht?ºCJOJQJ^JaJht?ºh
3¬6OJQJ]^Jht?ºht?º6OJQJ]^J%&j®¼Úåêú*/@drw±ÁÆÚ÷ÌÌÌÌÌÌÌÌÌÌÌÌÌÌÌÌÌÌÌÌÌÌ+$d%d&d'd7$8$H$NÆÿOÆÿPÆÿQÆÿgd¢}1$a$gdÿPH±ÁÄÆÊÚ&cfhl§³¶øf¨©°±¹ºÆÉñõöû*+7:s¤¨©®ÂÃÅÈÐâÂâÂâ©âÂâÂâ©ÂâÂâ©©â©©©©©©©ÂâÂâÂâÂâÂâ©âÂâÂâÂâ©7h
3¬h¢}15CJOJQJ\^JaJfHqÊ
ÿÿÿÿ1h
3¬h¢}1CJOJQJ^JaJfHqÊ
ÿÿÿÿ?h
3¬h¢}15CJOJQJ\^JaJfHmH qÊ
ÿÿÿÿsH 9h
3¬h¢}1CJOJQJ^JaJfHmH qÊ
ÿÿÿÿsH 6&chq§³¸ø8OfÆÑñ
7Bs¤¸ÅÐÔÔÔÔÔÔÔÔÔÔÔÔÔÔÔÔÔÔÔÔÔÔÔÔ+$d%d&d'd7$8$H$NÆÿOÆÿPÆÿQÆÿgd¢}1ÐÑÔ,Õ,×,--,---ò-ó-.3¡3£3¤4¦4¦5§579÷ï÷ççßßßßßß×ÏïÇÇÇǺß$a$gd×Y«gd×Y«$a$gd×Y«$a$gd$D'$a$gd~SU$a$gdÿPH$a$gdt?º$a$gdt?º$a$gd¢}1La figure 2 représente le nuage des points et les courbes de référence à 90% lorsquil y a eu un lissage a posteriori des quantiles conditionnels. Ces graphiques ont été obtenues avec le programme SAS ci-dessus.
Figure 2 : Exemple de sortie graphique obtenue avec SAS
4.3. Interface avec Gnuplot
Pour obtenir un graphique du type de celui présenté en figure 2 avec Gnuplot, la commande est la suivante :
plot 'donnees.dat', 'est1.donnees.Qn5.lis' with lines, 'est1.donnes.Qn95.lis' with lines
5. Application à des données réelles
Lobjectif dun projet développé par le CE.R.I.E.S. (Centre de recherche sur la peau humaine financé par Chanel) est d'établir des courbes de référence à 90% en fonction de l'âge pour des propriétés biophysiques de la peau de femmes japonaises saines sur deux zones du visage (front et joue) et une zone de l'avant-bras. Pour cela, une étude réalisée par le CE.R.I.E.S. a été conduite entre le 15 décembre 1998 et le 15 avril 1999 à Sendai (Japon) sur n=120 femmes japonaises âgées de 20 à 80 ans présentant une peau apparemment saine (c'est-à-dire sans aucun signe de dermatose en cours ou de maladie générale avec manifestations cutanées avérées). Chaque volontaire a été examinée en atmosphère (température et humidité relative) contrôlée. Cette étude comportait des questionnaires sur les habitudes de vie, un interrogatoire et un examen médical cutané, ainsi qu'une évaluation des propriétés biophysiques cutanées. Les propriétés biophysiques de la peau incluaient en particulier le taux de sécrétion de sébum (taux instantané de lipides), mesuré uniquement sur les deux zones du visage. Ces deux variables SJOUE et SFRONT sont ici les variables. La covariable est l'âge des volontaires (qui ne prend que des valeurs entières allant de 20 à 80 ans).
Les figures 3 et 4 montrent les courbes de référence à 90% qui ont été construites par les trois méthodes non paramétriques pour les variables SJOUE et SFRONT.
Figure 3 : Courbes de référence à 5% et 95% obtenues avec les méthodes non paramétriques pour la variable SFRONT (trait continu : méthode d'estimation par noyau, pointillés : méthode de la constante locale, tirets : méthode d'estimation par noyau produit).
Figure 4 : Courbes de référence à 5% et 95% obtenues avec les méthodes non paramétriques pour la variable SJOUE (trait continu : méthode d'estimation par noyau, pointillés : méthode de la constante locale, tirets : méthode d'estimation par noyau produit).
En ce qui concerne la variable SJOUE, les courbes de référence supérieures obtenues avec les trois estimateurs non paramétriques correspondent bien à ce que l'on s'attend à observer d'un point de vue biologique (décroissance du taux instantané de sébum avec l'âge), seul l'aspect légèrement « ondulé' » n'est pas totalement conforme. Pour « lisser » un peu plus ces courbes, il serait possible de prendre une fenêtre légèrement plus large que celle sélectionnée par la méthode de validation croisée.
Pour ce qui est de la variable SFRONT, les courbes de référence supérieures se comportent de manière semblable jusqu'à l'âge de 65 ans. Ensuite, le premier estimateur décroît plus rapidement que les deux autres ce qui correspond bien à une diminution attendue du taux instantané de sébum avec l'âge. En ce sens, cette courbe de référence pourrait être préférée aux deux autres.
Remerciements
Les auteurs remercient le Pr. E. Tschachler pour ses encouragements,le Pr. H. Tagami, le Dr K. Numagami et toute l'équipe du CE.R.I.E.S. pour leur contribution aux données, en particulier J. Latreille, I. Le Fur et le Dr F. Morizot.
Références bibliographiques
Gannoun, A., Girard, S., Guinot, C. & Saracco, J. (2002). ). Trois méthodes non paramétriques pour l'estimation de courbes de référence. Application à l'analyse des propriétés biophysiques de la peau. Revue de Statistique appliquée, 1, 65-89.
Yao, Q. (1999). Conditional predictive regions for stochastic processes. Technical report, University of Kent at Canterbury, UK.
Yu, K. & Jones, M.C. (1998). Local linear quantile regression. Journal of the American Statistical Association}, 93, 228-237.