Transformation de données: normalisation, stabilisation des variances
Transformation de données: normalisation, stabilisation des variances
Transformation de données: normalisation, stabilisation des variances
You also want an ePaper? Increase the reach of your titles
YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.
Bio2042 <strong>Transformation</strong> <strong>de</strong> données 1<strong>Transformation</strong> <strong>de</strong> données: <strong>normalisation</strong>,<strong>stabilisation</strong> <strong>de</strong>s <strong>variances</strong>Daniel BorcardDépartement <strong>de</strong> sciences biologiquesUniversité <strong>de</strong> MontréalRéférence: Legendre & Legendre 1998: paragraphe 1.5.6; 1984: p. 16 et suivantes.De nombreuses métho<strong>de</strong>s d'analyse statistique, et notamment lepuissant groupe <strong>de</strong>s statistiques paramétriques, se basent surl'hypothèse <strong>de</strong> normalité: la distribution <strong>de</strong> fréquences <strong>de</strong> certainesvariables utilisées est supposée conforme à la loi normale.Malheureusement, cette conformité n'est souvent pas assurée dans lecas <strong>de</strong>s données écologiques brutes. Le chercheur a donc <strong>de</strong>ux choixpossibles: soit il a recours à <strong>de</strong>s métho<strong>de</strong>s statistiques qui ne requièrentpas la normalité <strong>de</strong>s données (comme les métho<strong>de</strong>s nonparamétriques,ou les permutations, lorsqu'il y en a <strong>de</strong> disponibles pourréaliser l'analyse souhaitée), soit il normalise ses données. Le type <strong>de</strong>transformation normalisatrice choisi dépend <strong>de</strong> l'allure <strong>de</strong> ladistribution <strong>de</strong> fréquences <strong>de</strong>s données brutes.Il faut aussi remarquer que les transformations normalisatricescourantes possè<strong>de</strong>nt la propriété importante <strong>de</strong> réduirel'hétéroscédasticité <strong>de</strong>s données, c'est-à-dire <strong>de</strong> stabiliser leurvariance (en d'autres mots encore, <strong>de</strong> rendre leur varianceindépendante <strong>de</strong> la moyenne et plus constante sur l'ensemble <strong>de</strong>l'échantillon).Enfin, et pour gar<strong>de</strong>r un certain réalisme, il y a bien <strong>de</strong>s situations danslesquelles la <strong>normalisation</strong> complète (avec test à l'appui) s'avèreimpossible, mais où on peut se satisfaire <strong>de</strong> rendre la distribution <strong>de</strong>fréquence symétrique (pour autant que l'aplatissement ne soit pas tropprononcé).Les quelques transformations les plus courantes sont évoquées ci<strong>de</strong>ssous.
Bio2042 <strong>Transformation</strong> <strong>de</strong> données 2Un cas typique <strong>de</strong> données asymétriques est celui <strong>de</strong>s abondancesd'espèces. De telles données sont souvent composées <strong>de</strong> quelquesobservations où une espèce est très abondante, un nombre plus élevéd'observations où l'espèce est bien représentée, un nombre encore plusélevé où l'espèce est faiblement représentée, et <strong>de</strong> nombreusesobservations où l'espèce est absente. Une telle distribution estévi<strong>de</strong>mment asymétrique. On peut tenter <strong>de</strong> normaliser <strong>de</strong> tellesdonnées par plusieurs formules, suivant la "gravité" <strong>de</strong> l'asymétrie:Données suivant une distribution <strong>de</strong> Poisson: les données <strong>de</strong> cetype présentent <strong>de</strong>ux caractéristiques gênantes: leur distribution estasymétrique, et la variance est égale à la moyenne. Pour les normaliser,on a recours à la racine carrée:y' = (y + c)La constante c n'est utilisée que s'il y a <strong>de</strong>s valeurs négatives dans lesdonnées (donc pas dans le cas d'abondances d'espèces!).Exemple: comptages d'insectes diptères syrphi<strong>de</strong>s migrateurs au col <strong>de</strong>Bretolet (Suisse). Une heure <strong>de</strong> comptage est considérée comme uneobservation. A gauche: données brutes; à droite: données transforméespar la racine carrée. La courbe normale est indiquée pour comparaison.
Bio2042 <strong>Transformation</strong> <strong>de</strong> données 3Données suivant une distribution contagieuse: ce type <strong>de</strong> donnéesest très courant en écologie, puisque la plupart <strong>de</strong>s organismes vivantsprésentent une répartition agrégée. Les données suivent alors unedistribution lognormale ou une distribution binomiale négative.Malheureusement, la <strong>normalisation</strong> est souvent difficile en raison d'unnombre excessif <strong>de</strong> zéros. Les distributions <strong>de</strong> fréquences <strong>de</strong>s donnéesbrutes sont fortement asymétriques à droite: les classes représentantles valeurs faibles (<strong>de</strong> zéro à quelques individus pour <strong>de</strong>s comptagesd'effectifs) sont très surreprésentées, et quelques éléments contiennentun très grand nombre d'individus. On peut tenter plusieurstransformations, les plus communément appliquées étant la racinecarrée ci-<strong>de</strong>ssus et la transformation logarithmique:y' = ln(y + c)La constante c est cette fois utilisée s'il y a <strong>de</strong>s valeurs négatives ounulles dans les données.Exemple: dénombrements <strong>de</strong> l'acarien oribate Oppiella nova dans 70prélèvements <strong>de</strong> sphaignes au bord du lac Geai (Québec). On constateque même la transformation ln(y+1) n'a pas suffi à rendre ladistribution complètement symétrique.D'autres transformations peuvent aussi être tentées, comme la racinecubique, ou le log au carré.
Bio2042 <strong>Transformation</strong> <strong>de</strong> données 4Métho<strong>de</strong> <strong>de</strong> Box-Cox: lorsqu'il n'y a pas <strong>de</strong> raison a priori pourchoisir l'une ou l'autre <strong>de</strong> ces transformations, ces auteurs ont proposéune formule générale dont l'exposant gamma peut être ajusté paritérations pour obtenir la meilleure transformation possible:y' = (y −1) (si ≠ 0)y ' = ln(y) (si = 0)Cette métho<strong>de</strong>, qu'on ne peut pas appliquer à la main, est disponibleen langage R (fonction boxcox). D'autres informations à son sujet, etnotamment <strong>de</strong>s détails <strong>de</strong> calcul, figurent dans Legendre et Legendre(1984, p. 16-20; 1998: p. 39-45).Données exprimées en proportions ou pourcentages: dans <strong>de</strong> tellesdonnées, la variance dépend toujours <strong>de</strong> la moyenne. Pour <strong>de</strong> tellesdonnées, qui sont souvent platykurtiques (trop étalées), on peut avoirrecours à la transformation arc-sinus <strong>de</strong> la racine carrée (les donnéesbrutes étant exprimées en valeurs p <strong>de</strong> 0 à 1):p' = arcsinpExemple (tiré <strong>de</strong> Sokal & Rohlf, 1981): données <strong>de</strong> fertilité d'oeufs <strong>de</strong>la souche CP <strong>de</strong> Drosophila melanogaster, élevés dans 100 tubes <strong>de</strong>10 oeufs chacun: