L'anthropologie du vivant : objets et méthodes - CNRS - Dynamique ...

L'anthropologie du vivant : objets et méthodes - CNRS - Dynamique ... L'anthropologie du vivant : objets et méthodes - CNRS - Dynamique ...

evolhum.cnrs.fr
from evolhum.cnrs.fr More from this publisher
12.07.2015 Views

La Modélisation Statistique en Anthropologie Biologique du Vivant* Lorsque les variables explicatives sont corrélées entre elles, mêmefortement corrélées* En présence de nombreuses données manquantesCette méthode consiste à réaliser un compromis entre deux objectifs :maximiser la variance expliquée des prédicteurs Xi (principe de l’Analyseen Composantes Principales) et maximiser la corrélation entre les Xi etla variable à expliquer Y (principe de la régression linéaire). Elle reposesur un algorithme rapide qui consiste à une succession de régressionslinéaires simples. Elle remplace l’espace initial des (nombreuses)variables explicatives par un espace de faible dimensionnalité, c’est àdire par un petit nombre de facteurs qui sont construits l’un après l’autrede façon itérative.Le modèle de régression logistique binaireQuelques exemples de régression logistique binaire* En anthropologie du vieillissement• recherche des facteurs socio-démographiques associés à unePerception du Soi Vieillissant négative* En anthropologie épidémiologique• recherche des facteurs associés à l’obésitéIl s’agit d’un modèle permettant d’exprimer la relation entre unevariable qualitative à deux classes (d’où le terme binaire) et une ouplusieurs variables qui peuvent être quantitatives ou qualitatives.Quelques notions utiles• La fonction de lien, fonction qui relie la moyenne à la combinaisonlinéaire des variables explicatives est le logit. Son expression estla suivante :logit p = lnp1-poù p est défini sur ]0 ; 1[• L’Odds Ratio (OR), ou rapport des côtes est une mesured’association. Il est égal à l’exponentielle du coefficient soitOR=e β .• OR=1 : il n’y a pas d’association• L’association n’est pas significative si le 1 est dans l’intervallede confiance• OR ≠ 1 : il y a une associationL’anthropologie du vivant : objets et méthodes - 2010• OR >1 : l’association est positive• OR

La Modélisation Statistique en Anthropologie Biologique du VivantLe modèle présenté dans le tableau III permet de préciser l’impact desdifférents facteurs associés à la dépression : sexe, âge, revenu, catégoriesocioprofessionnelle, statut, composition du ménage, lieu de résidence,comorbidité physique.A âge identique, la situation de référence (en italique dans le Tableau III),correspond à une femme ayant des revenus supérieurs au seuil depauvreté, active occupée, cadre, sans comorbidité physique, vivant encouple avec deux enfants, hors région Provence-Alpes-Côte d’Azur.Lecture du tableau : chez les femmes, toutes choses égales par ailleurs,relativement à une active occupée, une femme au chômage a uneprobabilité de déclarer être dépressive majorée de 76 % (un coefficientmultiplicatif, dit Odds Ratio, de 1,76).Les éléments ci-après (liste non exhaustive) permettent de juger de laqualité de l’ajustement et de valider le modèle de régression logistique :* Test d’adéquation du modèle (Hosmer et Lemeshow)* Aire sous la courbe ROC (Receiver Operating Characteristic)* Matrice de confusion (appelée aussi table de classification)* Validation (échantillon test, échantillon d’apprentissage)La courbe ROC est un tracé de la sensibilité (capacité à prédire unévénement correctement) en fonction de la spécificité (capacité àprédire un non-événement correctement). Elle permet de visualiserle pouvoir discriminant d’un modèle. Puis l’aire sous la courbe estproche de 1, meilleur est le modèle.Si la variable à expliquer comporte plus de 2 modalités, il faudraalors avoir recours à une régression logistique polytomique. Cellecipeut être ordinale si les modalités de la variable à expliquersont ordonnées ou nominale si elles ne le sont pas.Références bibliographiquesAGRESTI (A.) 1990, Categorical Data Analysis, New York: JohnWiley & Sons, Inc.HOSMER (D.W.), LEMESHOW (S.) 1989, Applied LogisticRegression, John Wiley & Sons, Inc., New YorkTUFFERY (S.) 2007, Data Mining et statistique décisionnelle. Ed.Technip,MOTULSKY (H.J.) 2002, Biostatistique, une approche intuitive. DeBoeck Université, Paris, 484 p.TENENHAUS (M.) 1998. La régression PLS, théorie et pratique. Ed.Technip, Paris. 254p.L’auteurBérengère SALIBA-SERREIngénieur d’Étude en Statistique au CNRS- UMR 6578 Anthropologie Bioculturelle ; CNRS, Université de la Méditerranée,EFS (Marseille, France)courriel : berengere.saliba-serre@univmed.frL’anthropologie du vivant : objets et méthodes - 2010 97

La Modélisation Statistique en Anthropologie Biologique <strong>du</strong> VivantLe modèle présenté dans le tableau III perm<strong>et</strong> de préciser l’impact desdifférents facteurs associés à la dépression : sexe, âge, revenu, catégoriesocioprofessionnelle, statut, composition <strong>du</strong> ménage, lieu de résidence,comorbidité physique.A âge identique, la situation de référence (en italique dans le Tableau III),correspond à une femme ayant des revenus supérieurs au seuil depauvr<strong>et</strong>é, active occupée, cadre, sans comorbidité physique, <strong>vivant</strong> encouple avec deux enfants, hors région Provence-Alpes-Côte d’Azur.Lecture <strong>du</strong> tableau : chez les femmes, toutes choses égales par ailleurs,relativement à une active occupée, une femme au chômage a uneprobabilité de déclarer être dépressive majorée de 76 % (un coefficientmultiplicatif, dit Odds Ratio, de 1,76).Les éléments ci-après (liste non exhaustive) perm<strong>et</strong>tent de juger de laqualité de l’ajustement <strong>et</strong> de valider le modèle de régression logistique :* Test d’adéquation <strong>du</strong> modèle (Hosmer <strong>et</strong> Lemeshow)* Aire sous la courbe ROC (Receiver Operating Characteristic)* Matrice de confusion (appelée aussi table de classification)* Validation (échantillon test, échantillon d’apprentissage)La courbe ROC est un tracé de la sensibilité (capacité à prédire unévénement correctement) en fonction de la spécificité (capacité àprédire un non-événement correctement). Elle perm<strong>et</strong> de visualiserle pouvoir discriminant d’un modèle. Puis l’aire sous la courbe estproche de 1, meilleur est le modèle.Si la variable à expliquer comporte plus de 2 modalités, il faudraalors avoir recours à une régression logistique polytomique. Cellecipeut être ordinale si les modalités de la variable à expliquersont ordonnées ou nominale si elles ne le sont pas.Références bibliographiquesAGRESTI (A.) 1990, Categorical Data Analysis, New York: JohnWiley & Sons, Inc.HOSMER (D.W.), LEMESHOW (S.) 1989, Applied LogisticRegression, John Wiley & Sons, Inc., New YorkTUFFERY (S.) 2007, Data Mining <strong>et</strong> statistique décisionnelle. Ed.Technip,MOTULSKY (H.J.) 2002, Biostatistique, une approche intuitive. DeBoeck Université, Paris, 484 p.TENENHAUS (M.) 1998. La régression PLS, théorie <strong>et</strong> pratique. Ed.Technip, Paris. 254p.L’auteurBérengère SALIBA-SERREIngénieur d’Étude en Statistique au <strong>CNRS</strong>- UMR 6578 Anthropologie Bioculturelle ; <strong>CNRS</strong>, Université de la Méditerranée,EFS (Marseille, France)courriel : berengere.saliba-serre@univmed.frL’anthropologie <strong>du</strong> <strong>vivant</strong> : <strong>obj<strong>et</strong>s</strong> <strong>et</strong> méthodes - 2010 97

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!