12.07.2015 Views

Transformation de données: normalisation, stabilisation des variances

Transformation de données: normalisation, stabilisation des variances

Transformation de données: normalisation, stabilisation des variances

SHOW MORE
SHOW LESS

You also want an ePaper? Increase the reach of your titles

YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.

Bio2042 <strong>Transformation</strong> <strong>de</strong> données 1<strong>Transformation</strong> <strong>de</strong> données: <strong>normalisation</strong>,<strong>stabilisation</strong> <strong>de</strong>s <strong>variances</strong>Daniel BorcardDépartement <strong>de</strong> sciences biologiquesUniversité <strong>de</strong> MontréalRéférence: Legendre & Legendre 1998: paragraphe 1.5.6; 1984: p. 16 et suivantes.De nombreuses métho<strong>de</strong>s d'analyse statistique, et notamment lepuissant groupe <strong>de</strong>s statistiques paramétriques, se basent surl'hypothèse <strong>de</strong> normalité: la distribution <strong>de</strong> fréquences <strong>de</strong> certainesvariables utilisées est supposée conforme à la loi normale.Malheureusement, cette conformité n'est souvent pas assurée dans lecas <strong>de</strong>s données écologiques brutes. Le chercheur a donc <strong>de</strong>ux choixpossibles: soit il a recours à <strong>de</strong>s métho<strong>de</strong>s statistiques qui ne requièrentpas la normalité <strong>de</strong>s données (comme les métho<strong>de</strong>s nonparamétriques,ou les permutations, lorsqu'il y en a <strong>de</strong> disponibles pourréaliser l'analyse souhaitée), soit il normalise ses données. Le type <strong>de</strong>transformation normalisatrice choisi dépend <strong>de</strong> l'allure <strong>de</strong> ladistribution <strong>de</strong> fréquences <strong>de</strong>s données brutes.Il faut aussi remarquer que les transformations normalisatricescourantes possè<strong>de</strong>nt la propriété importante <strong>de</strong> réduirel'hétéroscédasticité <strong>de</strong>s données, c'est-à-dire <strong>de</strong> stabiliser leurvariance (en d'autres mots encore, <strong>de</strong> rendre leur varianceindépendante <strong>de</strong> la moyenne et plus constante sur l'ensemble <strong>de</strong>l'échantillon).Enfin, et pour gar<strong>de</strong>r un certain réalisme, il y a bien <strong>de</strong>s situations danslesquelles la <strong>normalisation</strong> complète (avec test à l'appui) s'avèreimpossible, mais où on peut se satisfaire <strong>de</strong> rendre la distribution <strong>de</strong>fréquence symétrique (pour autant que l'aplatissement ne soit pas tropprononcé).Les quelques transformations les plus courantes sont évoquées ci<strong>de</strong>ssous.


Bio2042 <strong>Transformation</strong> <strong>de</strong> données 2Un cas typique <strong>de</strong> données asymétriques est celui <strong>de</strong>s abondancesd'espèces. De telles données sont souvent composées <strong>de</strong> quelquesobservations où une espèce est très abondante, un nombre plus élevéd'observations où l'espèce est bien représentée, un nombre encore plusélevé où l'espèce est faiblement représentée, et <strong>de</strong> nombreusesobservations où l'espèce est absente. Une telle distribution estévi<strong>de</strong>mment asymétrique. On peut tenter <strong>de</strong> normaliser <strong>de</strong> tellesdonnées par plusieurs formules, suivant la "gravité" <strong>de</strong> l'asymétrie:Données suivant une distribution <strong>de</strong> Poisson: les données <strong>de</strong> cetype présentent <strong>de</strong>ux caractéristiques gênantes: leur distribution estasymétrique, et la variance est égale à la moyenne. Pour les normaliser,on a recours à la racine carrée:y' = (y + c)La constante c n'est utilisée que s'il y a <strong>de</strong>s valeurs négatives dans lesdonnées (donc pas dans le cas d'abondances d'espèces!).Exemple: comptages d'insectes diptères syrphi<strong>de</strong>s migrateurs au col <strong>de</strong>Bretolet (Suisse). Une heure <strong>de</strong> comptage est considérée comme uneobservation. A gauche: données brutes; à droite: données transforméespar la racine carrée. La courbe normale est indiquée pour comparaison.


Bio2042 <strong>Transformation</strong> <strong>de</strong> données 3Données suivant une distribution contagieuse: ce type <strong>de</strong> donnéesest très courant en écologie, puisque la plupart <strong>de</strong>s organismes vivantsprésentent une répartition agrégée. Les données suivent alors unedistribution lognormale ou une distribution binomiale négative.Malheureusement, la <strong>normalisation</strong> est souvent difficile en raison d'unnombre excessif <strong>de</strong> zéros. Les distributions <strong>de</strong> fréquences <strong>de</strong>s donnéesbrutes sont fortement asymétriques à droite: les classes représentantles valeurs faibles (<strong>de</strong> zéro à quelques individus pour <strong>de</strong>s comptagesd'effectifs) sont très surreprésentées, et quelques éléments contiennentun très grand nombre d'individus. On peut tenter plusieurstransformations, les plus communément appliquées étant la racinecarrée ci-<strong>de</strong>ssus et la transformation logarithmique:y' = ln(y + c)La constante c est cette fois utilisée s'il y a <strong>de</strong>s valeurs négatives ounulles dans les données.Exemple: dénombrements <strong>de</strong> l'acarien oribate Oppiella nova dans 70prélèvements <strong>de</strong> sphaignes au bord du lac Geai (Québec). On constateque même la transformation ln(y+1) n'a pas suffi à rendre ladistribution complètement symétrique.D'autres transformations peuvent aussi être tentées, comme la racinecubique, ou le log au carré.


Bio2042 <strong>Transformation</strong> <strong>de</strong> données 4Métho<strong>de</strong> <strong>de</strong> Box-Cox: lorsqu'il n'y a pas <strong>de</strong> raison a priori pourchoisir l'une ou l'autre <strong>de</strong> ces transformations, ces auteurs ont proposéune formule générale dont l'exposant gamma peut être ajusté paritérations pour obtenir la meilleure transformation possible:y' = (y −1) (si ≠ 0)y ' = ln(y) (si = 0)Cette métho<strong>de</strong>, qu'on ne peut pas appliquer à la main, est disponibleen langage R (fonction boxcox). D'autres informations à son sujet, etnotamment <strong>de</strong>s détails <strong>de</strong> calcul, figurent dans Legendre et Legendre(1984, p. 16-20; 1998: p. 39-45).Données exprimées en proportions ou pourcentages: dans <strong>de</strong> tellesdonnées, la variance dépend toujours <strong>de</strong> la moyenne. Pour <strong>de</strong> tellesdonnées, qui sont souvent platykurtiques (trop étalées), on peut avoirrecours à la transformation arc-sinus <strong>de</strong> la racine carrée (les donnéesbrutes étant exprimées en valeurs p <strong>de</strong> 0 à 1):p' = arcsinpExemple (tiré <strong>de</strong> Sokal & Rohlf, 1981): données <strong>de</strong> fertilité d'oeufs <strong>de</strong>la souche CP <strong>de</strong> Drosophila melanogaster, élevés dans 100 tubes <strong>de</strong>10 oeufs chacun:

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!