29.12.2013 Views

08 06 ED Croisement des données - Anses

08 06 ED Croisement des données - Anses

08 06 ED Croisement des données - Anses

SHOW MORE
SHOW LESS

You also want an ePaper? Increase the reach of your titles

YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.

Systèmes<br />

d’information<br />

en santé<br />

environnement<br />

Enquête sur le croisement<br />

de <strong>données</strong> dans le champ<br />

santé environnement<br />

Synthèse <strong>des</strong> résultats<br />

Action 35 du Plan national santé environnement<br />

En partenariat avec l’Institut français de l’environnement<br />

Juin 20<strong>08</strong>


Afsset • RAPPORT « Action 35 du PNSE : enquête sur le croisement de <strong>données</strong> »<br />

« Améliorer la performance et l’intégration <strong>des</strong> systèmes<br />

d’information en santé environnement »<br />

Action 35 du Plan National Santé Environnement<br />

RAPPORT<br />

Enquête sur le croisement de <strong>données</strong> dans le<br />

champ de la santé-env<br />

environnement<br />

Juin 20<strong>08</strong><br />

Juin 20<strong>08</strong> page 1


Afsset • RAPPORT « Action 35 du PNSE : enquête sur le croisement de <strong>données</strong> »<br />

Mots clés<br />

<strong>Croisement</strong> de <strong>données</strong> ; plan national santé environnement ; enquête ; épidémiologie ;<br />

méthodologie ; outils de modélisation ; santé-environnement ; systèmes d’information ; système<br />

d’information géographique.<br />

Juin 20<strong>08</strong> page 2


Afsset • RAPPORT « Action 35 du PNSE : enquête sur le croisement de <strong>données</strong> »<br />

Présentation <strong>des</strong> intervenants<br />

RÉDACTEURS<br />

M. Jérôme LOZACH – Afsset<br />

M. Cédric DUBOUDIN – Afsset<br />

RELECTEURS<br />

Mme Salma ELRE<strong>ED</strong>Y – Afsset<br />

Mme Élisabeth ROBERT-GNANSIA – Afsset<br />

COPILOTES – ACTION 35 DU PNSE : AFSSET ET IFEN<br />

Mme Salma ELRE<strong>ED</strong>Y – Afsset – 2005/20<strong>06</strong><br />

M. Jérôme LOZACH – Afsset – 20<strong>06</strong>/20<strong>08</strong><br />

M. Bernard POUPAT – Ifen<br />

GROUPE DE COORDINATION - ACTION 35 DU PNSE<br />

M. Francis BERTRAND – BRGM<br />

Mme Souad BOUALLALA – Ademe<br />

Mme Joëlle COLOSIO – Ademe<br />

M. Cédric DUBOUDIN – Afsset<br />

Mme Emmanuelle SALINES – Ministère chargé de la santé / Direction de la recherche, <strong>des</strong><br />

étu<strong>des</strong>, de l’évaluation et <strong>des</strong> statistiques<br />

M. Daniel EILSTEIN – InVS<br />

M. Michel TACCHI – Ministère chargé de la santé / Direction générale de la santé<br />

M. Christian JOURDAN – Ministère chargé de l’écologie / Direction de l’eau<br />

M. Marc LEOBET – Ministère chargé de l’écologie / Direction de la prévention <strong>des</strong> pollutions et <strong>des</strong><br />

risques<br />

M. Tek-Ang LIM – InVS<br />

Mme Doris NICKLAUS – Ministère chargé de l’écologie / Direction <strong>des</strong> étu<strong>des</strong> économiques et de<br />

l’évaluation environnementale<br />

M. François ROBIDA – BRGM<br />

Juin 20<strong>08</strong> page 3


Afsset • RAPPORT « Action 35 du PNSE : enquête sur le croisement de <strong>données</strong> »<br />

GROUPE DE PILOTAGE DE L’ENQUÊTE SUR LE CROISEMENT DE DONNÉES<br />

M. Cédric DUBOUDIN – Afsset<br />

M. Daniel EILSTEIN – InVS<br />

M. Jérôme LOZACH – Afsset<br />

M. Bernard POUPAT – Ifen<br />

ASSISTANCE À MAÎTRISE D’OUVRAGE DE L’ENQUÊTE SUR LE CROISEMENT DE DONNÉES<br />

Mme Claire HUAULT – PricewaterhouseCoopers<br />

Mme Ariane PIANA-ROGEZ – PricewaterhouseCoopers<br />

Mme Diane SIMIU – PricewaterhouseCoopers<br />

REMERCIEMENTS<br />

Nous remercions tout particulièrement, pour leur relecture attentive et leurs commentaires avisés,<br />

Mme Annelise TRAN du Cirad, Mme Hélène DESQUEYROUX de l’Ademe, M. Nicolas JEANNÉE<br />

de Geovariances, M. Maurice GIROUD du CHU de Dijon, M. Denis BARD de l’EHESS et M. Basile<br />

CHAIX de l’Inserm.<br />

Juin 20<strong>08</strong> page 4


Afsset • RAPPORT « Action 35 du PNSE : enquête sur le croisement de <strong>données</strong> »<br />

Préambule<br />

La commande initiale, telle que définie dans le texte du PNSE, était :<br />

« Pour améliorer la compatibilité et la performance <strong>des</strong> systèmes d’information en santé<br />

environnement, il convient dans un premier temps de recenser l’existant et de conduire <strong>des</strong><br />

actions pilotes dans les domaines prioritaires déjà identifiés (substances chimiques,<br />

pestici<strong>des</strong>). Un inventaire et un diagnostic approfondi <strong>des</strong> bases de <strong>données</strong> et référentiels<br />

seront réalisés par l’Afsset et l’Ifen en 2005. Il servira de fondement à une étude de<br />

faisabilité de croisement <strong>des</strong> <strong>données</strong> environnementales, sanitaires, et démographiques<br />

<strong>des</strong>tiné à mieux documenter expositions et impacts sanitaires.<br />

L’amélioration <strong>des</strong> systèmes d’information nécessite de s’appuyer sur les compétences<br />

existantes mais aussi sur une animation technique permanente, spécialisée dans les<br />

systèmes d’information, qui permette de développer <strong>des</strong> outils techniques et un langage<br />

commun, en s’inscrivant dans les efforts qui sont en cours de déploiement dans ce<br />

domaine au niveau européen. L’ensemble du dispositif sera orienté par un comité<br />

pluridisciplinaire appuyé par une équipe technique de coordination pilotée par l’Afsset. Afin<br />

de favoriser l’exploitation <strong>des</strong> <strong>données</strong>, un portail d’accès et <strong>des</strong> guichets d’information<br />

pour différents types d’utilisateurs seront créés ».<br />

Pour y répondre, deux sous-actions encadrées par un groupe de coordination et co-pilotées<br />

par l’Afsset et l’Ifen ont été menées :<br />

1. la réalisation d’un inventaire <strong>des</strong> bases de <strong>données</strong> existantes dans le domaine de la<br />

santé et de l’environnement ;<br />

2. une enquête sur le croisement de <strong>données</strong> dans le champ de la santéenvironnement.<br />

Cette enquête de retour d’expériences, encadrée par un groupe de<br />

pilotage restreint, a été effectuée avec l’aide du cabinet de conseil,<br />

PricewaterhouseCoopers.<br />

Une synthèse et <strong>des</strong> recommandations ont été rédigées par les copilotes et validées par le<br />

groupe de coordination de l’action 35 du PNSE le 16 janvier 20<strong>08</strong> à partir <strong>des</strong> premiers<br />

résultats <strong>des</strong> deux sous-actions précitées. Les préoccupations fortes retenues dans le<br />

cadre du groupe 3 du Grenelle de l’environnement « Instaurer un environnement<br />

respectueux de la santé » ont aussi contribué à alimenter ce document de synthèse.<br />

Cette synthèse (quelque peu amendée depuis) et les recommandations sont restituées dans<br />

ce présent rapport qui pour le reste concerne uniquement l’enquête sur le croisement de<br />

<strong>données</strong> dans le champ santé-environnement. Ce document a été rédigé à partir d’un<br />

rapport fourni par le cabinet de conseil PricewaterhouseCoopers.<br />

Juin 20<strong>08</strong> page 5


Afsset • RAPPORT « Action 35 du PNSE : enquête sur le croisement de <strong>données</strong> »<br />

Juin 20<strong>08</strong> page 6


Afsset • RAPPORT « Action 35 du PNSE : enquête sur le croisement de <strong>données</strong> »<br />

Synthèse <strong>des</strong> travaux de l’Action 35 du PNSE<br />

(janvier 20<strong>08</strong>)<br />

I. Inventaire <strong>des</strong> bases de <strong>données</strong><br />

La capacité pour tous d’accéder à <strong>des</strong> <strong>données</strong> compréhensibles, pertinentes et comparables afin<br />

de faire évoluer les hypothèses et les connaissances sur les relations possibles entre nuisances<br />

environnementales et pathologies ainsi que la surveillance de celles-ci, est à replacer dans un<br />

contexte général de l’accès à l’information statistique à l’heure d’internet 1 .<br />

Un inventaire <strong>des</strong> bases de <strong>données</strong> existantes dans le domaine de la santé et de l’environnement<br />

a été élaboré, afin de fournir aux équipes scientifiques une vision claire <strong>des</strong> <strong>données</strong> disponibles,<br />

mais aussi de permettre une meilleure information du public.<br />

Il recense les bases de <strong>données</strong> d’une part sanitaires et d’autre part environnementales et plus<br />

particulièrement celles qui contiennent <strong>des</strong> <strong>données</strong> répétées dans le temps et/ou l’espace. Une<br />

fiche de méta<strong>données</strong> 2 standardisée a été développée au sein du groupe de coordination, remplie<br />

et validée par chaque gestionnaire de bases de <strong>données</strong>. Cette fiche reprend <strong>des</strong> définitions de la<br />

norme ISO.19.115 3 sur les méta<strong>données</strong> à caractère géographique.<br />

L’inventaire fournit une vision <strong>des</strong> bases de <strong>données</strong> existantes, <strong>des</strong> modalités de production, de<br />

gestion, d’organisation, et d’accessibilité <strong>des</strong> <strong>données</strong>. Il est disponible sur le site portail « santé<br />

environnement travail » 4 et à partir du site de l’Ifen et de l’Afsset. Sur le site portail, un lien a été<br />

mis en place vers les bases de <strong>données</strong> lorsqu’elles sont accessibles en ligne et vers les sites <strong>des</strong><br />

gestionnaires.<br />

Constat<br />

La visibilité <strong>des</strong> bases de <strong>données</strong> environnementales et sanitaires n’est pas exhaustive.<br />

Un nombre important d’organismes et gestionnaires de bases de <strong>données</strong> dans le champ de<br />

la santé et de l’environnement est constaté.<br />

Plusieurs systèmes d’information existent pour un même milieu, sous <strong>des</strong> tutelles différentes<br />

(exemple de l’eau où l’on rencontre un système national d’information sur l’eau sous tutelle<br />

du ministère chargé de l’environnement, un système national d’information sur les eaux de<br />

baigna<strong>des</strong>, et un système d’information national sur les eaux de consommation sous tutelle<br />

du ministère chargé de la santé).<br />

1 Conseil national de l’information statistique (2007). L’accès à l’information statistique à l’heure d’internet.<br />

Chroniques du Cnis, n°6. 4 p.<br />

2 Les méta<strong>données</strong> se définissent comme les <strong>données</strong> décrivant une ressource. Il s’agit donc de toutes les<br />

informations que l’on peut recueillir et mettre à disposition pour décrire une ressource. Source : Information<br />

géographique. Recommandation relative à la mise œuvre de la norme EN ISO 19115 sur les méta<strong>données</strong>.<br />

(Version 1.0 du 12/<strong>06</strong>/20<strong>06</strong>) Groupe de Travail Interministériel sur le Catalogage. En ligne :<br />

http://www.cnig.gouv.fr/upload/ressource/r1158248372.DOC#_Toc139341636<br />

3 Plus d’informations sur la norme ISO 19115 sur le site : http://cnig.les-argonautes.fr/<br />

4 http://www.sante-environnement-travail.fr/liste.php3?id_mot=2886<br />

Juin 20<strong>08</strong> page 7


Afsset • RAPPORT « Action 35 du PNSE : enquête sur le croisement de <strong>données</strong> »<br />

L’absence de méta<strong>données</strong> et de géocodage est à déplorer pour un nombre important de<br />

bases de <strong>données</strong>, principalement sanitaires.<br />

L’absence d’indicateurs de qualité est patente dans de nombreuses bases de <strong>données</strong> et il<br />

n’y a pas de définition homogène d’un indicateur de qualité entre les bases de <strong>données</strong><br />

santé et environnement.<br />

L’accès est restreint aux <strong>données</strong> agrégées pour la plupart <strong>des</strong> bases de <strong>données</strong> sanitaires<br />

en raison du caractère sensible <strong>des</strong> <strong>données</strong>, le plus souvent individuelles.<br />

II. Enquête sur le croisement de <strong>données</strong> dans le champ de la santé environnement<br />

Il est fréquent qu’une base de <strong>données</strong> soit utilisée pour un objectif différent de celui auquel<br />

répondait sa création (gestion locale ou nationale pour les pouvoirs publics, projet d’étude pour les<br />

équipes scientifiques, information pour le public…).<br />

Une telle démarche implique souvent un retraitement <strong>des</strong> <strong>données</strong> pour chaque projet d’étude,<br />

comme le note le Conseil National de l’Information Statistique dans sa chronique du 26 décembre<br />

20<strong>06</strong> 5 , et par conséquent un coût, en argent, en temps de travail et en réflexion.<br />

Dès lors, l’objectif principal de cette enquête était de dégager <strong>des</strong> enseignements sur la faisabilité<br />

du croisement de <strong>données</strong> issues de bases de <strong>données</strong> existantes environnementales, sanitaires,<br />

populationnelles et/ou démographiques.<br />

Cette étude de retour d’expériences a été réalisée à partir d’entretiens effectués auprès de dixneuf<br />

équipes scientifiques. Elle restitue <strong>des</strong> perceptions <strong>des</strong> acteurs rencontrés mais n’a pas<br />

vocation à être exhaustive ni représentative de l’ensemble <strong>des</strong> recherches effectuées dans le<br />

domaine de la santé-environnement.<br />

Constat<br />

Les étu<strong>des</strong> supports concernent principalement les liens entre <strong>des</strong> événements de santé et<br />

une exposition à la pollution atmosphérique. Il s’agit essentiellement d’étu<strong>des</strong> de cohorte 6 pour<br />

une échelle d’analyse départementale à locale et par conséquent d’une utilisation<br />

majoritairement de bases de <strong>données</strong> locales.<br />

Le recours aux bases de <strong>données</strong> correspond à deux mo<strong>des</strong> d’utilisation bien distincts mais<br />

complémentaires : l’identification <strong>des</strong> individus et leur suivi dans le temps à partir de bases de<br />

<strong>données</strong> médico-administratives ; le croisement de <strong>données</strong> issues de sources multiples.<br />

Les équipes scientifiques ont <strong>des</strong> difficultés à identifier les sources de <strong>données</strong> d’intérêt.<br />

Sont retrouvés <strong>des</strong> problèmes d’ordre général concernant les <strong>données</strong>, difficultés citées<br />

régulièrement dans la littérature scientifique comme un frein aux possibilités de recherche et<br />

de surveillance. Ces difficultés sont liées au géocodage, à la disponibilité et la qualité <strong>des</strong><br />

<strong>données</strong>, la faible présence de méta<strong>données</strong>, à l’absence d’identifiants communs entre les<br />

bases de <strong>données</strong> ou encore au décalage spatial et/ou temporel entre les différentes sources<br />

de <strong>données</strong>. Un travail important d’optimisation ou de contournement <strong>des</strong> limites <strong>des</strong> <strong>données</strong><br />

disponibles au regard <strong>des</strong> objectifs de l’étude doit alors être réalisé (construction de <strong>données</strong><br />

5 Conseil national de l’information statistique (20<strong>06</strong>). Enquêtes statistiques et sources administratives : une<br />

complémentarité à exploiter. Chroniques du Cnis, n°5. 4 p.<br />

6 Terme désignant toute étude ou analyse basée, non pas sur une ou plusieurs population(s) sélectionnée(s)<br />

individu par individu, en fonction <strong>des</strong> critères prévus par le protocole, mais sur <strong>des</strong> <strong>données</strong> populationnelles<br />

globales (<strong>données</strong> agrégées), disponibles à l'échelon d'une région ou d'un pays et généralement non<br />

collectées dans ce but. Source : Bégaud B. (1998). Dictionnaire de pharmaco-épidémiologie, 3 ème édition.<br />

Bordeaux : Arme-Pharmacovigilance Éditions. 248 p.<br />

Juin 20<strong>08</strong> page 8


Afsset • RAPPORT « Action 35 du PNSE : enquête sur le croisement de <strong>données</strong> »<br />

ad-hoc, harmonisation <strong>des</strong> <strong>données</strong>, estimations <strong>des</strong> <strong>données</strong> manquantes, changement<br />

d’unité spatiale et/ou temporelle…). Les équipes sont parfois dans l’obligation de recourir à <strong>des</strong><br />

hypothèses relativement fortes et à <strong>des</strong> métho<strong>des</strong> d’extrapolation pour répondre aux objectifs<br />

de leurs étu<strong>des</strong>.<br />

Les gestionnaires de bases de <strong>données</strong> sont fortement impliqués dans les étu<strong>des</strong> menées<br />

pour identifier et prétraiter les <strong>données</strong> d’intérêt. Les règles de confidentialité imposées par la<br />

Cnil 7 liées à l‘utilisation de <strong>données</strong> individuelles de santé ou à caractère administratif<br />

impliquent très souvent d’intégrer le gestionnaire de la base de <strong>données</strong> comme véritable<br />

acteur de l’étude.<br />

Les informations brutes individuelles ou finement localisées dans le temps et dans l’espace<br />

(durée de l'exposition, date précise du diagnostic,…) indispensables pour établir un lien entre<br />

un facteur d’exposition et un évènement sanitaire sont délicates à obtenir et parfois<br />

inexistantes, obligeant les équipes à recourir à <strong>des</strong> approximations.<br />

Les informations administratives ou « populationnelles » sont tout aussi indispensables pour<br />

permettre de prendre en compte les facteurs individuels ou comportementaux (sexe, âge,<br />

historique de résidence, catégorie socioprofessionnelle…), mais difficilement accessibles à <strong>des</strong><br />

niveaux géographiques et/ou temporels appropriés.<br />

Les outils SIG constituent un élément essentiel pour étudier les relations entre l’homme et son<br />

environnement et représente un outil privilégié pour le croisement de <strong>données</strong> dans le champ<br />

santé-environnement.<br />

7 Cnil : Commission nationale de l’informatique et <strong>des</strong> libertés.<br />

Juin 20<strong>08</strong> page 9


Afsset • RAPPORT « Action 35 du PNSE : enquête sur le croisement de <strong>données</strong> »<br />

Juin 20<strong>08</strong> page 10


Afsset • RAPPORT « Action 35 du PNSE : enquête sur le croisement de <strong>données</strong> »<br />

Propositions-recommandations de l’Action 35 du PNSE<br />

(Soumises aux tutelles 8 le 04 février 20<strong>08</strong>)<br />

A partir <strong>des</strong> constatations évoquées précédemment, le groupe de coordination a souhaité rédiger<br />

<strong>des</strong> propositions et recommandations avec pour objectif d’améliorer l’intégration et la performance<br />

<strong>des</strong> systèmes d’information en santé-environnement.<br />

1) Développer un schéma directeur 9 interministériel <strong>des</strong> systèmes d’information en santé<br />

environnement couvrant l’ensemble du territoire national. Pour ce faire, le modèle<br />

développé aux États-Unis par le CDC 10 est une source d’inspiration intéressante, avec la<br />

mise en place d’une coordination nationale politiquement et techniquement légitime<br />

permettant un véritable échange entre <strong>des</strong> organismes multidisciplinaires capables de suivre,<br />

d’identifier, d’organiser et d’améliorer la qualité <strong>des</strong> <strong>données</strong> pertinentes pour la santé<br />

environnementale. Une telle coordination en France aurait comme objectifs de définir les<br />

principales fonctions et éléments d’un réseau de systèmes d’information en santé<br />

environnementale ainsi que les besoins, priorités et orientations à suivre, de mettre en place<br />

un calendrier d’actions et d’évaluer leurs mises en œuvre.<br />

2) Mettre en place <strong>des</strong> réseaux régionaux ou interrégionaux pour identifier les acteurs<br />

impliqués dans le champ de la santé-environnement, les sources de <strong>données</strong> disponibles et<br />

ainsi développer une véritable organisation <strong>des</strong> systèmes d’information à leur échelle.<br />

3) Soutenir les réseaux existants (réseau Francim <strong>des</strong> registres français, réseau <strong>des</strong><br />

associations de surveillance de la qualité de l’air, …) pour poursuivre les pratiques de<br />

standardisation <strong>des</strong> <strong>données</strong>.<br />

4) Impliquer les équipes scientifiques lors de la mise en place d’une base de <strong>données</strong><br />

administrative. Parfois, un ajout ou une adaptation très mo<strong>des</strong>te du schéma de la base de<br />

<strong>données</strong> peut ouvrir beaucoup de perspectives en matière de recherche.<br />

5) Favoriser les échanges entre les équipes scientifiques en prévoyant un financement<br />

spécifique, dans les appels à projet de recherche, pour la capitalisation <strong>des</strong> outils et<br />

métho<strong>des</strong> développés.<br />

8 Ministère chargé de la santé, Direction générale de la santé ; Ministère chargé du travail, Direction<br />

générale du travail, Ministère chargé de l’environnement, Direction de la prévention <strong>des</strong> pollutions et <strong>des</strong><br />

risques, Direction de l’eau et Direction <strong>des</strong> étu<strong>des</strong> économiques et de l’évaluation environnementale.<br />

9 Un schéma directeur doit donner les orientations stratégiques de manière prospective afin de définir<br />

grossièrement l'articulation de la réalisation <strong>des</strong> principaux objectifs dans le temps. Il permet ainsi de définir<br />

<strong>des</strong> priorités en termes de réalisation <strong>des</strong> objectifs et de donner une visibilité sur les ambitions de<br />

l'organisation.<br />

10 CDC: Centers for Disease Control and Prevention. CDC’s National Environmental Public Health Tracking<br />

Program. « National Network Implementation Plan (NNIP), août 20<strong>06</strong>. En ligne :<br />

http://www.cdc.gov/NCEH/Tracking/pdfs/nnip.pdf<br />

Juin 20<strong>08</strong> page 11


Afsset • RAPPORT « Action 35 du PNSE : enquête sur le croisement de <strong>données</strong> »<br />

6) Développer <strong>des</strong> plates-formes métiers pour définir <strong>des</strong> accords de partage <strong>des</strong> <strong>données</strong>,<br />

<strong>des</strong> normes de méta<strong>données</strong>, les transformations nécessaires à leur utilisation pour <strong>des</strong><br />

objectifs différents… Pour exemple, l’enquête menée dans le cadre de cette action 35 du<br />

PNSE a montré l’intérêt d’une plate-forme de prétraitement <strong>des</strong> <strong>données</strong> pour les<br />

organismes de recherche. La création de plateformes métiers pourrait permettre de :<br />

développer un réseaux d’échanges basés sur le web afin de fournir un moyen d’accès<br />

à <strong>des</strong> <strong>données</strong> d’intérêt pour la santé-environnement normalisées avec <strong>des</strong> niveaux<br />

d’accès et une résolution géographique différents selon les utilisateurs. Ce réseau<br />

d’échanges pourrait être géré par la structure de coordination nationale ;<br />

développer et homogénéiser les pratiques de géocodage. Une méthodologie de<br />

référencement géographique standardisée (normalisation <strong>des</strong> métho<strong>des</strong> pour recueillir,<br />

analyser, afficher <strong>des</strong> <strong>données</strong> telles qu’elles puissent être agrégées et comparées,<br />

référentiel adresse…) devrait être développée pour réduire les sources d’erreurs et les<br />

imprécisions du géocodage (impossibilité de géocoder, erreur de positionnement,…) ;<br />

favoriser la création de méta<strong>données</strong> (définitions claires, homogènes) par les<br />

gestionnaires de bases de <strong>données</strong> pour faciliter l’identification <strong>des</strong> <strong>données</strong> d’intérêt et<br />

supprimer les risques de mauvaises interprétations. Mettre en place <strong>des</strong> référentiels<br />

communs entre les bases de <strong>données</strong> et favoriser leur utilisation (ex. classification <strong>des</strong><br />

maladies, identifiant commun pour permettre le croisement de <strong>données</strong> individuelles<br />

multi-sources…) et ainsi permettre une interopérabilité <strong>des</strong> systèmes d’information et<br />

bases de <strong>données</strong> par le respect <strong>des</strong> normes mises en place.<br />

7) Améliorer l’utilisation de <strong>données</strong> individuelles (consommation d’alcool et de tabac, <strong>données</strong><br />

sociodémographiques, histoire résidentielle et professionnelle, …) et de <strong>données</strong> en milieu<br />

professionnel à une échelle spatiale et/ou temporelle adaptée (ex. information à l’IRIS 11 ).<br />

8) Développer plus largement un catalogue <strong>des</strong> bases de <strong>données</strong> et de leurs méta<strong>données</strong><br />

à partir de l’inventaire existant <strong>des</strong> bases de <strong>données</strong> sanitaires et environnementales en<br />

l’élargissant aux bases de <strong>données</strong> « santé travail » et « populationnelles ». Intégrer ce<br />

catalogue à <strong>des</strong> structures existantes tel que le Géocatalogue du Géoportail développé par le<br />

BRGM et l’IGN.<br />

11 IRIS : îlots regroupés pour l'information statistique, briques de base en matière de diffusion de <strong>données</strong><br />

locales. La France en compte environ 50 800 (50 100 en métropole et 700 dans les DOM). Source : Insee. En<br />

ligne : http://www.insee.fr/fr/nom_def_met/definitions/html/accueil.htm.<br />

Juin 20<strong>08</strong> page 12


Afsset • RAPPORT « Action 35 du PNSE : enquête sur le croisement de <strong>données</strong> »<br />

SOMMAIRE<br />

Présentation <strong>des</strong> intervenants ....................................................................................................3<br />

Préambule ....................................................................................................................................5<br />

Synthèse <strong>des</strong> travaux de l’Action 35 du PNSE ..........................................................................7<br />

Propositions-recommandations de l’Action 35 du PNSE........................................................11<br />

Abréviations ...............................................................................................................................15<br />

Liste <strong>des</strong> tableaux......................................................................................................................17<br />

1 Introduction ................................................................................................ 19<br />

2 Métho<strong>des</strong> .................................................................................................... 21<br />

2.1 Présentation de la grille d’entretien et périmètre............................................................21<br />

2.2 Déroulement de l’enquête.................................................................................................22<br />

2.3 Équipes rencontrées et étu<strong>des</strong> retenues.........................................................................22<br />

3 Résultats..................................................................................................... 27<br />

3.1 Analyse <strong>des</strong>criptive de l’échantillon <strong>des</strong> étu<strong>des</strong> investiguées ......................................27<br />

3.1.1 Généralités............................................................................................................................................28<br />

3.1.2 Caractéristiques méthodologiques .......................................................................................................30<br />

3.1.3 Sources de <strong>données</strong> .............................................................................................................................33<br />

3.1.4 Outils appliqués aux <strong>données</strong>...............................................................................................................34<br />

3.2 Analyse de la perception <strong>des</strong> équipes rencontrées........................................................36<br />

3.2.1 Sources de <strong>données</strong> et modalités d’accès ...........................................................................................36<br />

3.2.2 Qualité et représentativité <strong>des</strong> <strong>données</strong> au regard <strong>des</strong> objectifs de l’étude.........................................40<br />

3.2.3 Prétraitement <strong>des</strong> sources de <strong>données</strong> ................................................................................................43<br />

3.2.4 Construction de <strong>données</strong> et modélisation.............................................................................................46<br />

3.2.5 Transformation <strong>des</strong> <strong>données</strong> ................................................................................................................49<br />

3.2.6 SIG – véritable outil de croisement de <strong>données</strong> dans les étu<strong>des</strong> épidémiologiques<br />

environnementales................................................................................................................................49<br />

3.3 Attentes <strong>des</strong> équipes scientifiques : quelques exemples précis...................................51<br />

4 Conclusion .................................................................................................. 55<br />

5 Bibliographie............................................................................................... 57<br />

ANNEXES ........................................................................................................... 59<br />

Annexe 1 : Grille d’entretien......................................................................................................61<br />

Annexe 2 : Modifications apportées à la grille d’entretien (après la première série de six<br />

entretiens)..........................................................................................................................65<br />

Annexe 3 : Liste <strong>des</strong> équipes non retenues pour l’enquête....................................................67<br />

Juin 20<strong>08</strong> page 13


Afsset • RAPPORT « Action 35 du PNSE : enquête sur le croisement de <strong>données</strong> »<br />

Juin 20<strong>08</strong> page 14


Afsset • RAPPORT « Action 35 du PNSE : enquête sur le croisement de <strong>données</strong> »<br />

Abréviations<br />

AASQA : Association agréée de surveillance de la qualité de l’air<br />

ADEME : Agence de l’environnement et de la maîtrise de l’énergie<br />

AFSSET : Agence française de sécurité sanitaire de l’environnement et du travail<br />

ANR : Agence nationale de la recherche<br />

ATIH : Agence technique de l’information sur l’hospitalisation<br />

AVC : Accident vasculaire cérébral<br />

BRGM : Bureau de recherches géologiques et minières<br />

CCTIRS : Comité consultatif sur le traitement de l’information en matière de recherche dans le<br />

domaine de la santé<br />

CépiDC : Centre d’épidémiologie sur les causes médicales de décès<br />

CETE : Centre d’étu<strong>des</strong> techniques de l’équipement<br />

CERTU : Centre d’étu<strong>des</strong> sur les réseaux, les transports, l’urbanisme et les constructions<br />

publiques<br />

CIM-O : Classification internationale <strong>des</strong> maladies pour l’oncologie<br />

CITEPA : Centre interprofessionnel technique d’étu<strong>des</strong> de la pollution atmosphérique<br />

CIRAD : Centre de coopération internationale en recherche agronomique pour le développement<br />

CLC : Corine land cover (base de <strong>données</strong> d’occupation du sol)<br />

CNAMTS : Caisse nationale d’assurance maladie <strong>des</strong> travailleurs salariés<br />

CNES : Centre national d’étu<strong>des</strong> spatiales<br />

CNIL : Commission nationale de l’informatique et <strong>des</strong> libertés<br />

CNIG : Conseil national de l’information géographique<br />

CNIS : Conseil national de l’information statistique<br />

CNRS : Centre national de la recherche scientifique<br />

CSTB : Centre scientifique et technique du bâtiment<br />

DDASS : Direction départementale <strong>des</strong> affaires sanitaires et sociales<br />

DIM : Département de l’information médicale<br />

DMP : Dossier médical personnel<br />

DRIRE : Direction régionale de l’industrie de la recherche et de l’environnement<br />

EHESP : Ecole <strong>des</strong> hautes étu<strong>des</strong> en santé publique<br />

EMEP : European monitoring and evaluation program ; programme européen de surveillance <strong>des</strong><br />

retombées atmosphériques<br />

EPAS : Echantillon permanent d’assurés sociaux<br />

EPER : European pollutant emission register ; registre européen <strong>des</strong> émissions de polluants<br />

ESPS : Enquête santé et protection sociale<br />

Juin 20<strong>08</strong> page 15


Afsset • RAPPORT « Action 35 du PNSE : enquête sur le croisement de <strong>données</strong> »<br />

FRANCIM : Réseau français <strong>des</strong> registres du cancer<br />

GRECAN : Groupe régional d’étu<strong>des</strong> sur le cancer<br />

IFEN : Institut français de l’environnement<br />

IGN : Institut géographique national<br />

IN<strong>ED</strong> : Institut national d’étu<strong>des</strong> démographiques<br />

INRETS : Institut national de recherche sur les transports et leur sécurité<br />

INSEE : Institut national de la statistique et <strong>des</strong> étu<strong>des</strong> économiques<br />

INSERM : Institut national de la santé et de la recherche médicale<br />

InVS : Institut de veille sanitaire<br />

IRD : Institut de recherche pour le développement<br />

IRDES : Institut de recherche et documentation en économie de la santé<br />

IRIS : Ilots regroupés pour l’information statistique<br />

IRSN : Institut de radioprotection et de sûreté nucléaire<br />

ISIS : Incitation à l’utilisation scientifique <strong>des</strong> images spot<br />

MSA : Mutuelle sociale agricole<br />

NIR : Numéro d’inscription au répertoire<br />

ORS : Observatoire régional de santé<br />

PMSI : Programme de médicalisation <strong>des</strong> systèmes d’information<br />

PwC : Pricewaterhouse Coopers<br />

PNSE : Plan national santé-environnement<br />

RNSA : Réseau national de surveillance aérobiologique<br />

SAMU : Service d’aide médicale d’urgence<br />

SIG : Système d’information géographique<br />

SISE-Eaux : Système d’information santé-environnement sur les eaux<br />

SNCF : Société nationale <strong>des</strong> chemins de fer français<br />

SNIIR-AM : Système nationale de l’information inter-régime de l’assurance maladie<br />

SPOT : Satellite pour l’observation de la Terre<br />

THM : Tri-halo-méthane<br />

UIOM : Usine d’incinération <strong>des</strong> ordures ménagères<br />

Juin 20<strong>08</strong> page 16


Afsset • RAPPORT « Action 35 du PNSE : enquête sur le croisement de <strong>données</strong> »<br />

Liste <strong>des</strong> tableaux<br />

Tableau 1 : Liste <strong>des</strong> étu<strong>des</strong> intégrées à l’enquête__________________________________________ 23<br />

Tableau 2 : Répartition <strong>des</strong> étu<strong>des</strong> par facteur environnemental rencontré _____________________ 28<br />

Tableau 3 : Répartition <strong>des</strong> étu<strong>des</strong> par effet sanitaire rencontré ______________________________ 28<br />

Tableau 4 : Répartition <strong>des</strong> étu<strong>des</strong> en fonction du type de population cible_____________________ 29<br />

Tableau 5 : Répartition <strong>des</strong> étu<strong>des</strong> en fonction du territoire d’analyse _________________________ 29<br />

Tableau 6 : Répartition <strong>des</strong> étu<strong>des</strong> en fonction de l’unité spatiale d’observation ________________ 30<br />

Tableau 7 : Répartition <strong>des</strong> étu<strong>des</strong> en fonction du type d’approche ___________________________ 32<br />

Tableau 8 : Répartition <strong>des</strong> étu<strong>des</strong> en fonction du type d’étude_______________________________ 33<br />

Tableau 9 : Liste <strong>des</strong> principaux gestionnaires de bases de <strong>données</strong> concernés et nombre d’étu<strong>des</strong><br />

associées _______________________________________________________________________ 33<br />

Tableau 10 : Nombre d’étu<strong>des</strong> avec emploi d’un outil de modélisation pour définir l’exposition, d’un<br />

outil SIG en fonction du type d’étude ________________________________________________ 34<br />

Juin 20<strong>08</strong> page 17


Afsset • RAPPORT « Action 35 du PNSE : enquête sur le croisement de <strong>données</strong> »<br />

Juin 20<strong>08</strong> page 18


Afsset • RAPPORT « Action 35 du PNSE : enquête sur le croisement de <strong>données</strong> »<br />

1 Introduction<br />

Les systèmes d’information en santé et en environnement ont bien souvent été conçus et<br />

développés selon <strong>des</strong> logiques et <strong>des</strong> modèles différents, répondant à <strong>des</strong> besoins et <strong>des</strong><br />

contraintes spécifiques (épidémiologie, surveillance de la qualité de l’environnement, application<br />

de la réglementation, alerte...). Néanmoins, ils sont souvent utilisés par la suite dans <strong>des</strong> cadres<br />

conceptuels et avec <strong>des</strong> objectifs différents de ceux qui ont prévalus à leur mise en place. Une<br />

telle démarche implique très souvent un retraitement <strong>des</strong> <strong>données</strong> pour chaque projet d’étude,<br />

comme le note le Conseil National de l’Information Statistique dans sa chronique du 26 décembre<br />

20<strong>06</strong> 12 .<br />

A partir de ce postulat, deux actions ont été menées dans le cadre de l’action 35 du PNSE avec<br />

pour objectif initial d’améliorer la performance et l’intégration <strong>des</strong> systèmes d’information en santéenvironnement<br />

:<br />

1. un inventaire <strong>des</strong> bases de <strong>données</strong> existantes dans le domaine de la santé et de<br />

l’environnement, afin de fournir aux équipes scientifiques une vision claire <strong>des</strong> <strong>données</strong><br />

existantes, <strong>des</strong> modalités de production, de gestion, d’organisation et d’accessibilité <strong>des</strong><br />

<strong>données</strong>. Il permet aussi une meilleure information du public. Cet inventaire ne sera ni<br />

présenté ni discuté ici ;<br />

2. une enquête de retour d’expérience sur <strong>des</strong> étu<strong>des</strong> françaises déjà réalisées (ou en cours)<br />

ayant été amenées à pratiquer le croisement de <strong>données</strong> issues de bases de <strong>données</strong><br />

existantes environnementales, sanitaires, populationnelles et/ou géographiques françaises.<br />

L’Agence française de sécurité sanitaire de l’environnement et du travail (Afsset) et l’Institut<br />

français de l’environnement (Ifen) ont mené ces travaux dans le cadre d’un groupe de<br />

coordination 13 et d’un groupe de pilotage 14 pluri-institutionnels. L’enquête de retour d’expérience a<br />

été effectuée avec l’aide du cabinet de conseil PricewaterhouseCoopers (PwC).<br />

Le présent rapport constitue le document final de l’enquête sur le croisement de <strong>données</strong><br />

dans le champ de la santé-environnement. Ce document a été rédigé à partir <strong>des</strong> résultats de<br />

PwC et a pour objectif de dégager <strong>des</strong> enseignements sur la faisabilité du croisement et sur les<br />

métho<strong>des</strong> utilisées par les équipes pour permettre ces croisements de <strong>données</strong>.<br />

Cette étude de retour d’expérience a été réalisée à partir d’entretiens effectués auprès d’équipes<br />

scientifiques. Elle restitue <strong>des</strong> perceptions <strong>des</strong> acteurs rencontrés mais n’a pas vocation à être<br />

exhaustive ni représentative de l’ensemble <strong>des</strong> recherches ou travaux effectués dans le domaine<br />

de la santé-environnement.<br />

12 Conseil national de l’information statistique (20<strong>06</strong>). Enquêtes statistiques et sources administratives : une<br />

complémentarité à exploiter. Chroniques du Cnis, n°5. 4 p.<br />

13 Groupe de coordination de l’action 35 du PNSE : Direction <strong>des</strong> étu<strong>des</strong> économiques et de l’évaluation<br />

environnementales, Direction de l’eau et de la Direction de la prévention <strong>des</strong> pollutions et <strong>des</strong> risques pour le<br />

Ministère chargé de l’environnement, Direction générale de la santé et Direction de la Recherche, <strong>des</strong><br />

étu<strong>des</strong>, de l’évaluation et <strong>des</strong> statistiques pour le Ministère chargé de la santé, Ifen, Afsset, InVS, Ademe et<br />

BRGM.<br />

14 Groupe de pilotage : Afsset, Ifen, InVS.<br />

Juin 20<strong>08</strong> page 19


Afsset • RAPPORT « Action 35 du PNSE : enquête sur le croisement de <strong>données</strong> »<br />

Le groupe de coordination de l’action 35 du PNSE s’est attaché à définir les modalités de mise en<br />

œuvre de l’enquête (périmètre de l’enquête, validation de la grille d’entretien, sélection <strong>des</strong><br />

équipes à interroger) et les modalités de restitution <strong>des</strong> travaux (encadrement et validation du<br />

cahier <strong>des</strong> charges, <strong>des</strong> rapports intermédiaires et du rapport final de PwC).<br />

Le groupe de pilotage a encadré l’assistance à maîtrise d’ouvrage tout au long de l’enquête à partir<br />

<strong>des</strong> rapports intermédiaires rédigés par PwC, permettant <strong>des</strong> réajustements au déroulement de<br />

l’enquête.<br />

Après un rappel méthodologique et une présentation <strong>des</strong> équipes rencontrées, nous présentons<br />

une analyse <strong>des</strong>criptive de l’échantillon <strong>des</strong> étu<strong>des</strong> intégrées à l’enquête. Nous développons<br />

ensuite une analyse <strong>des</strong> critères de faisabilité du croisement de <strong>données</strong> et <strong>des</strong> stratégies utilisées<br />

par les équipes afin de « mettre en adéquation » les <strong>données</strong> entre elles. Enfin, nous présentons<br />

les évolutions souhaitées par les équipes rencontrées vis-à-vis <strong>des</strong> bases de <strong>données</strong> exploitées,<br />

ainsi que leurs attentes en termes de disponibilité et de qualité <strong>des</strong> <strong>données</strong>.<br />

A retenir<br />

Ce rapport restitue l’expression <strong>des</strong> équipes scientifiques rencontrées. Aucune expertise <strong>des</strong><br />

bases de <strong>données</strong> citées n’a été effectuée. Par ailleurs, aucun jugement de valeur quant à la<br />

qualité scientifique <strong>des</strong> étu<strong>des</strong> n’a été porté. Enfin, ce rapport n’a pas vocation à être exhaustif ni<br />

représentatif de l’ensemble <strong>des</strong> recherches ou travaux effectuées dans le domaine de la santéenvironnement.<br />

Juin 20<strong>08</strong> page 20


Afsset • RAPPORT « Action 35 du PNSE : enquête sur le croisement de <strong>données</strong> »<br />

2 Métho<strong>des</strong><br />

La méthodologie retenue consistait à réaliser <strong>des</strong> entretiens avec <strong>des</strong> équipes scientifiques à<br />

propos d’une de leur étude en cours ou passée, sur la base d’une grille d’entretien commune à<br />

l’ensemble <strong>des</strong> étu<strong>des</strong>.<br />

2.1 Présentation de la grille d’entretien et périmètre<br />

La grille d’entretien (annexe 1), élaborée et validée par le groupe de pilotage et le groupe de<br />

coordination de l’action 35 du PNSE, est subdivisée en quatre parties :<br />

1. les généralités sur l’étude :<br />

objectif de l’étude, types de <strong>données</strong> croisées, principales approches statistiques utilisées,<br />

résultats et limites principales de l’étude,… ;<br />

2. les <strong>données</strong> et métho<strong>des</strong> :<br />

information sur les <strong>données</strong> brutes, les <strong>données</strong> croisées, structuration <strong>des</strong> <strong>données</strong>,<br />

<strong>des</strong>cription <strong>des</strong> transformations préalables au croisement de <strong>données</strong> ;<br />

3. les atouts, limites, difficultés et évolutions souhaitées :<br />

présentation <strong>des</strong> limites, atouts et difficultés rencontrées en fonction <strong>des</strong> unités d’échelle,<br />

<strong>des</strong> modalités d’accès aux <strong>données</strong>, évolutions souhaitées pour les bases de <strong>données</strong><br />

exploitées ;<br />

4. les attentes de l’équipe vis-à-vis de l’enquête.<br />

A noter que la grille d’entretien a été légèrement modifiée et précisée après une première série de<br />

6 entretiens (liste <strong>des</strong> modifications en annexe 2).<br />

Les équipes scientifiques ayant effectué un croisement de <strong>données</strong> sanitaires, environnementales<br />

et/ou démographiques ont été identifiées par les appels à projet de recherche « Santé<br />

Environnement Santé Travail » de l’Agence nationale de la recherche (ANR) et « Santé<br />

Environnement et Travail » de l’Afsset. Par la suite et sur recommandations <strong>des</strong> équipes<br />

contactées et/ou rencontrées en entretien, de nouvelles équipes scientifiques ont été intégrées à<br />

l’enquête.<br />

Les étu<strong>des</strong> retenues l’ont été au regard de critères définis par le groupe de coordination de l’action<br />

35 du PNSE qui sont les suivants :<br />

1. étude sur le territoire français ;<br />

2. existence d’un croisement de <strong>données</strong> dans le champ de la santé-environnement ;<br />

3. utilisation d’au moins une base de <strong>données</strong> existante.<br />

Juin 20<strong>08</strong> page 21


Afsset • RAPPORT « Action 35 du PNSE : enquête sur le croisement de <strong>données</strong> »<br />

2.2 Déroulement de l’enquête<br />

Chaque équipe scientifique identifiée a été contactée par les consultants de PwC afin de présenter<br />

les objectifs de l’enquête. Quatorze équipes scientifiques figurant dans la liste <strong>des</strong> équipes<br />

identifiées ont été contactées mais n’ont finalement pas été intégrées à l’enquête (annexe 3). Il<br />

apparaissait, après ces échanges, que leurs travaux ne rentraient pas dans les critères de<br />

sélection <strong>des</strong> étu<strong>des</strong> retenues (pas de recours à <strong>des</strong> bases de <strong>données</strong> existantes, territoire<br />

couvert hors France, pas de croisement de <strong>données</strong>), ou (cas plus rare) leur étude n’était pas<br />

assez avancée pour permettre un retour d’expérience.<br />

Pour ce qui est <strong>des</strong> autres équipes, cette première prise de contact a permis d’identifier et de<br />

sélectionner les étu<strong>des</strong> scientifiques les plus pertinentes pour l’enquête. En effet, il était important<br />

que l’enquête porte sur une étude spécifique et non pas sur <strong>des</strong> généralités quant au croisement<br />

de <strong>données</strong>.<br />

Deux consultants de PwC accompagnés d’un membre de l’Afsset ont effectué l’ensemble <strong>des</strong><br />

entretiens avec les interlocuteurs les plus compétents au sein de l’équipe scientifique pour<br />

répondre aux questions. Trois entretiens ont été réalisés par téléphone, pour <strong>des</strong> raisons de<br />

commodité.<br />

Sur la base <strong>des</strong> informations recueillies en entretien, les consultants de PwC ont rédigé un compte<br />

rendu d’entretien, qui, avalisé par l’Afsset, a été systématiquement adressé à l’équipe concernée<br />

pour compléments et validation. L’accord formel <strong>des</strong> équipes pour l’exploitation <strong>des</strong> comptesrendus<br />

dans le cadre du rapport final a été sollicité.<br />

L’enquête a débuté en février 2007 par la prise de contact avec les équipes scientifiques. Les<br />

entretiens se sont déroulés du 26 février au 22 octobre 2007. Le planning initial prévoyait une fin<br />

de mission de PwC en septembre 2007 mais, compte tenu de la demande de certaines équipes de<br />

retarder leur entretien (en raison de travaux en cours), il a été décidé, lors de la réunion du groupe<br />

de coordination de l’action 35 du PNSE du 26 avril 2007, de prolonger la période de déroulement<br />

<strong>des</strong> entretiens.<br />

2.3 Équipes rencontrées et étu<strong>des</strong> retenues<br />

Dix-neuf équipes (au total 21 étu<strong>des</strong>) ont été rencontrées. Il s’agit principalement d’équipes de<br />

recherche (équipes de l’Inserm, du Cirad, équipes universitaires…). Les autres équipes<br />

rencontrées travaillent sur la thématique santé-environnementale mais n’ont pas à proprement<br />

parler le statut d’équipe de recherche (bureaux d’étu<strong>des</strong>, agences sanitaires, associations de<br />

surveillance de la qualité de l’air, registres…). Parmi les 21 étu<strong>des</strong> intégrées à l’enquête, 4 étu<strong>des</strong><br />

ne présentant pas de croisement de <strong>données</strong> santé-environnement stricto sensu ont néanmoins<br />

été conservées car elles apportent un éclairage particulier sur la problématique de l’utilisation de<br />

bases <strong>données</strong> à <strong>des</strong> fins autres que ce pourquoi elles ont été constituées.<br />

Juin 20<strong>08</strong> page 22


Afsset • RAPPORT « Action 35 du PNSE : enquête sur le croisement de <strong>données</strong> »<br />

Le tableau ci-<strong>des</strong>sous présente l’ensemble <strong>des</strong> équipes rencontrées et les caractéristiques <strong>des</strong><br />

étu<strong>des</strong> intégrées à l’enquête.<br />

Tableau 1 : Liste <strong>des</strong> étu<strong>des</strong> intégrées à l’enquête<br />

Organisme(s)<br />

d’attache(s) pendant<br />

l’étude<br />

Institut de veille sanitaire<br />

(InVS) – Département<br />

Santé Environnement<br />

Institut de veille sanitaire<br />

(InVS) – Département<br />

Santé Environnement<br />

Institut national de la<br />

santé et de la recherche<br />

médicale (Inserm) –<br />

UMR 707<br />

Institut de<br />

radioprotection et de<br />

sûreté nucléaire (IRSN)<br />

– Laboratoire<br />

d’épidémiologie<br />

Laboratoire de<br />

génétique et évolution<br />

<strong>des</strong> maladies<br />

infectieuses (Gemi) -<br />

UMR CNRS-IRD<br />

Université Franche-<br />

Comté - Unité de<br />

recherche « Santé et<br />

environnement rural »<br />

Ecole <strong>des</strong> hautes étu<strong>des</strong><br />

en santé publique<br />

(EHESP) – Laboratoire<br />

d’étude et de recherche<br />

en environnement et<br />

santé<br />

Personnes rencontrées<br />

A. Lefranc<br />

P. Empereur-Bissonnet<br />

P. Fabre<br />

S. Goria<br />

P. de Crouy-Chanel<br />

B. Chaix<br />

P. Chauvin<br />

D. Laurier<br />

J-F. Guégan<br />

J-F. Viel<br />

F. Mauny<br />

S. Pujol<br />

M. Hagi<br />

D. Bard<br />

O. Laurent<br />

Etude(s)<br />

1. Etude <strong>des</strong> liens à court terme entre<br />

niveaux de pollution atmosphérique et santé<br />

2. Etude rétrospective d'incidence <strong>des</strong><br />

cancers à proximité <strong>des</strong> usines d'incinération<br />

d'ordures ménagères<br />

3. Etude « RECORD » (Residential<br />

Environment and CORonary heart Disease)<br />

4. Risque de leucémie aigüe de l’enfant et<br />

exposition aux rayonnements ionisants<br />

d’origine naturelle (radon, rayons gamma<br />

telluriques et rayons cosmiques)<br />

5. Etude <strong>des</strong> mécanismes sous-tendant les<br />

« épidémies » d’ulcère de Buruli en Guyane<br />

6.1. Emissions de dioxines par l’usine<br />

d’incinération d’ordures ménagères de<br />

Besançon et risque de lymphome nonhodgkinien<br />

6.2. Bruit en milieu urbain (Besançon),<br />

exposition <strong>des</strong> enfants et scolarité<br />

6.3. Densité <strong>des</strong> campagnols comme facteur<br />

de risque pour l’échinococcose alvéolaire<br />

humaine<br />

7. Rôle de l’exposition environnementale<br />

dans les inégalités de santé : comprendre les<br />

interactions de l’exposition environnementale<br />

et de ses effets à court terme avec le statut<br />

social<br />

Juin 20<strong>08</strong> page 23


Afsset • RAPPORT « Action 35 du PNSE : enquête sur le croisement de <strong>données</strong> »<br />

Organisme(s)<br />

d’attache(s) pendant<br />

l’étude<br />

1. Association Agréée<br />

de Surveillance de la<br />

Qualité de l’Air de<br />

Normandie (Aasqa - Air<br />

Normand)<br />

2. Observatoire régional<br />

de santé de Normandie<br />

(ORS)<br />

1. Institut national de la<br />

santé et de la recherche<br />

médicale (Inserm) –<br />

U 625<br />

2. Institut national de<br />

recherche sur les<br />

transports et leur<br />

sécurité (Inrets) –<br />

UMRESTTE<br />

Institut national de la<br />

santé et de la recherche<br />

médicale (Inserm) –<br />

UMR 707<br />

Centre de coopération<br />

internationale en<br />

recherche agronomique<br />

pour le développement<br />

(Cirad) – Unité<br />

« épidémiologie et<br />

écologie <strong>des</strong> maladies<br />

animales »<br />

Institut de recherche et<br />

de documentation en<br />

économie de la santé<br />

(Ir<strong>des</strong>) – Unité ESPS et<br />

bases Assurance<br />

Maladie<br />

1. Agence de<br />

l’environnement et de la<br />

maîtrise de l’énergie<br />

(Ademe) – Département<br />

air<br />

2. Vincent Nedellec<br />

Consultants<br />

3. Geovariances<br />

Registre <strong>des</strong> accidents<br />

vasculaires cérébraux<br />

de Dijon<br />

Personnes rencontrées<br />

B. Pietruszewski (1)<br />

H. Villet (2)<br />

G. Hochart (2)<br />

S. Cordier (1)<br />

L. Anzivino (2)<br />

A. Flahault<br />

AL. Tran<br />

P. Dourgnon<br />

H. Desqueyroux (1)<br />

V. Nedellec (2)<br />

N. Jeannée (3)<br />

M. Giroud<br />

Etude(s)<br />

8. Etude <strong>des</strong> impacts de l'ozone sur la santé<br />

9. Evaluation du risque de malformations<br />

congénitales liées à la proximité<br />

d’incinérateurs d’ordures ménagères, en<br />

Rhône-Alpes<br />

10. Ventes de médicaments et surveillance<br />

syndromique<br />

11. Utilisation de <strong>données</strong> de la télédétection<br />

à haute résolution spatiale pour caractériser<br />

les paysages propices à l’émergence de la<br />

fièvre catarrhale du mouton (« Blue<br />

Tongue ») en Corse<br />

12. Appariement <strong>des</strong> <strong>données</strong> de liquidation<br />

<strong>des</strong> fichiers de l’Echantillon Permanent<br />

d’Assurés Sociaux (EPAS) et <strong>des</strong> <strong>données</strong><br />

de l’Enquête biennale sur la Santé et la<br />

Protection Sociale (ESPS)<br />

13. Etude visant à estimer l’exposition de la<br />

population à la pollution liée au transport<br />

routier sur le territoire français<br />

14. Effets à court terme de la pollution<br />

atmosphérique à l’ozone sur la survenue <strong>des</strong><br />

accidents vasculaires cérébraux (AVC) à<br />

Dijon<br />

Juin 20<strong>08</strong> page 24


Afsset • RAPPORT « Action 35 du PNSE : enquête sur le croisement de <strong>données</strong> »<br />

Organisme(s)<br />

d’attache(s) pendant<br />

l’étude<br />

Institut national de la<br />

santé et de la recherche<br />

médicale (Inserm)-<br />

Institut national d’étu<strong>des</strong><br />

démographiques (Ined)<br />

– U 822<br />

Institut national de la<br />

santé et de la recherche<br />

médicale (Inserm) –<br />

U 625<br />

Institut national de la<br />

santé et de la recherche<br />

médicale (Inserm) –<br />

ERI 11<br />

Groupe Régional<br />

d’étu<strong>des</strong> sur le cancer<br />

(Grecan)<br />

Registre <strong>des</strong> infarctus du<br />

myocarde de Dijon<br />

Personnes rencontrées<br />

R. Slama<br />

S. Cordier<br />

N. Costet<br />

E. Nerrière<br />

P. Lebailly<br />

M. Zeller<br />

Etude(s)<br />

15. Etude sur la faisabilité de l’utilisation de la<br />

base de <strong>données</strong> SISE-Eaux pour estimer<br />

l’influence de l’exposition à certains polluants<br />

de l’eau de boisson sur la fonction de<br />

reproduction et sur la fertilité<br />

16. Exposition aux dérivés de la chloration de<br />

l’eau et impact sur la croissance intra-utérine<br />

17. Distribution de l’exposition de la<br />

population urbaine à <strong>des</strong> polluants<br />

particulaires et gazeux génotoxiques et<br />

évaluation du risque de cancer : Etude<br />

Genotox’ER<br />

18. Incidence <strong>des</strong> cancers et mortalité en<br />

milieu agricole dans le Calvados : cohorte<br />

EPI 95<br />

19. Effets à court terme de la pollution<br />

atmosphérique à l’ozone sur la survenue <strong>des</strong><br />

infarctus du myocarde à Dijon<br />

Juin 20<strong>08</strong> page 25


Afsset • RAPPORT « Action 35 du PNSE : enquête sur le croisement de <strong>données</strong> »<br />

Juin 20<strong>08</strong> page 26


Afsset • RAPPORT « Action 35 du PNSE : enquête sur le croisement de <strong>données</strong> »<br />

3 Résultats<br />

Les résultats sont présentés selon trois axes d’analyse :<br />

1. analyse <strong>des</strong>criptive de l’échantillon <strong>des</strong> étu<strong>des</strong> investiguées ;<br />

2. analyse de la perception <strong>des</strong> équipes rencontrées par rapport à chacune <strong>des</strong> étapes<br />

nécessaires pour la mise en œuvre du croisement ;<br />

3. analyse <strong>des</strong> attentes <strong>des</strong> équipes scientifiques en termes de disponibilité et de qualité<br />

<strong>des</strong> <strong>données</strong>.<br />

3.1 Analyse <strong>des</strong>criptive de l’échantillon <strong>des</strong> étu<strong>des</strong> investiguées<br />

Cette analyse <strong>des</strong>criptive, effectuée sur 17 étu<strong>des</strong>, décrit les caractéristiques générales <strong>des</strong><br />

étu<strong>des</strong> investiguées (thématiques abordées, population, territoire couvert et échelle spatiale <strong>des</strong><br />

étu<strong>des</strong>), les approches scientifiques développées, et les principales sources de <strong>données</strong> et<br />

transformations réalisées par les équipes scientifiques sur les <strong>données</strong> brutes.<br />

Les étu<strong>des</strong> n°10, 11, 12 et 13 bien que retenues dan s l’enquête ont été exclues de l’analyse<br />

<strong>des</strong>criptive, car elles ne correspondent pas directement à la problématique de croisement de<br />

<strong>données</strong> environnementales et sanitaires. Cependant, chacune de ces étu<strong>des</strong> présente un intérêt<br />

dans le cadre de l’enquête :<br />

l’étude n°10 effectue la comparaison de deux modèle s de surveillance du syndrome<br />

grippal afin d’évaluer la possibilité de l’utilisation <strong>des</strong> <strong>données</strong> de consommation<br />

médicamenteuse en guise de substitution à la surveillance de type « sentinelles » 15 ;<br />

l’étude n°11 est exclue de l’analyse <strong>des</strong>criptive du fait de sa thématique « santé<br />

animale », un peu éloignée du champ santé-environnement. En revanche, elle permet<br />

de mettre en évidence les possibilités d’utilisation <strong>des</strong> <strong>données</strong> de télédétection ;<br />

l’étude n°12 a pour objectif d’apparier les <strong>données</strong> de liquidation <strong>des</strong> soins enregistrées<br />

dans les fichiers de l'Echantillon Permanent d'Assurés Sociaux (EPAS) et <strong>des</strong> <strong>données</strong><br />

de l'Enquête biennale sur la Santé et la Protection Sociale (ESPS) qui produit tous les<br />

deux ans <strong>des</strong> <strong>données</strong> sur l'état de santé, la couverture maladie et le recours aux soins<br />

de la population en fonction de ses caractéristiques sociales. Cet appariement aboutit à<br />

la constitution d’un fichier comprenant les informations issues d’ESPS et <strong>des</strong> variables<br />

agrégées au niveau individuel issues de l’EPAS.<br />

l’étude n°13 a pour objectif de développer un outil méthodologique à partir de<br />

nombreuses sources de <strong>données</strong> afin estimer l’exposition de la population à la pollution<br />

liée au transport routier sur le territoire français.<br />

15 Le réseau Sentinelles est un réseau de surveillance de 14 indicateurs de santé (grippe, rougeole,<br />

asthme,…) de 1 260 médecins généralistes bénévoles et volontaires répartis sur le territoire métropolitain<br />

français. Plus d’information sur le site : http://www.sentiweb.org/.<br />

Juin 20<strong>08</strong> page 27


Afsset • RAPPORT « Action 35 du PNSE : enquête sur le croisement de <strong>données</strong> »<br />

3.1.1 Généralités<br />

Les deux tableaux ci-<strong>des</strong>sous présentent les différents effets sanitaires et facteurs de risque<br />

environnementaux concernés dans les étu<strong>des</strong> retenues.<br />

Tableau 2 : Répartition <strong>des</strong> étu<strong>des</strong> par facteur environnemental rencontré<br />

Facteurs environnementaux<br />

Nb d’étu<strong>des</strong><br />

Pollution atmosphérique 9<br />

Caractéristiques d’occupation du sol (Ex.<br />

végétation) 16<br />

Environnement social 1<br />

Qualité de l’eau de consommation 2<br />

Pestici<strong>des</strong> 1<br />

Radon 1<br />

Bruit 1<br />

Population de campagnols 1<br />

Total 17<br />

Il apparaît que l’enquête était principalement axée sur les effets de la santé liés à la pollution<br />

atmosphérique (9 étu<strong>des</strong>).<br />

Tableau 3 : Répartition <strong>des</strong> étu<strong>des</strong> par effet sanitaire rencontré<br />

1<br />

Effets sanitaires<br />

Nb d’étu<strong>des</strong><br />

Cancers 5<br />

Maladies cardiovasculaires et/ou<br />

cérébrovasculaires<br />

Effet sur la fertilité<br />

Effet sur la croissance intra-utérine<br />

Asthme 2<br />

Échinococcose alvéolaire humaine 1<br />

Ulcère du Buruli 1<br />

Impact sur les capacités d’apprentissage 1<br />

Total 19*<br />

*Plusieurs effets sanitaires observés pour une même étude.<br />

Les étu<strong>des</strong> les plus représentées dans cette enquête visent à étudier les liens entre un facteur de<br />

risque environnemental et la survenue de cancers ou de maladies cardiovasculaires et/ou<br />

cérébrovasculaires.<br />

6<br />

3<br />

16 Comme facteur explicatif du développement de certains vecteurs de maladies transmissibles (ex. le<br />

moustique Anophèles gambiae principal vecteur du paludisme) pouvant favoriser le développement de<br />

certaines pathologies.<br />

Juin 20<strong>08</strong> page 28


Afsset • RAPPORT « Action 35 du PNSE : enquête sur le croisement de <strong>données</strong> »<br />

Le tableau ci-<strong>des</strong>sous indique une prédominance <strong>des</strong> étu<strong>des</strong> effectuées sur la population urbaine.<br />

Ce constat est fortement lié au nombre important d’étu<strong>des</strong> axées sur la pollution atmosphérique.<br />

Tableau 4 : Répartition <strong>des</strong> étu<strong>des</strong> en fonction du type de population cible<br />

Populations cibles<br />

Nb d’étu<strong>des</strong><br />

Femmes enceintes et fœtus 3<br />

Enfants 1<br />

Individus de plus de 40 ans 1<br />

Population générale 4<br />

Population urbaine 7<br />

Population spécifique : agriculteurs 1<br />

Total 17<br />

Le territoire couvert pour chaque étude est assez diversifié même si 65 % <strong>des</strong> étu<strong>des</strong> sont<br />

effectuées sur une zone géographique inférieure ou égale au département (Cf. tableau ci<strong>des</strong>sous).<br />

Tableau 5 : Répartition <strong>des</strong> étu<strong>des</strong> en fonction du territoire d’analyse<br />

Territoires d’étude<br />

Nb d’étu<strong>des</strong><br />

France métropolitaine 2<br />

1 région 2<br />

Plusieurs départements 1<br />

1 département (dont la Guyane française) 4<br />

Plusieurs villes 3<br />

1 ville 5<br />

Total 17<br />

L’unité spatiale d’analyse est tout aussi variée avec six étu<strong>des</strong> pour lesquelles le croisement de<br />

<strong>données</strong> s’effectue au niveau d’une adresse (voir tableau ci-<strong>des</strong>sous).<br />

Juin 20<strong>08</strong> page 29


Afsset • RAPPORT « Action 35 du PNSE : enquête sur le croisement de <strong>données</strong> »<br />

Tableau 6 : Répartition <strong>des</strong> étu<strong>des</strong> en fonction de l’unité spatiale d’observation<br />

Unité spatiale<br />

Nb d’étu<strong>des</strong><br />

Spécifique à l’étude (zone d’étude, zone<br />

d’influence, secteur intra-urbain)<br />

Adresse 6<br />

Zone d’emploi 17 1<br />

Ilot 18 1<br />

IRIS 19 3<br />

Canton 2<br />

Ville 2<br />

Département 2<br />

Région 1<br />

Total 21*<br />

*Deux étu<strong>des</strong> avec plusieurs échelles spatiales d’analyse.<br />

3<br />

3.1.2 Caractéristiques méthodologiques<br />

L’ensemble <strong>des</strong> étu<strong>des</strong> scientifiques considérées ici ont été classées selon l’approche (écologique,<br />

contextuelle ou individuelle) et le type d’étude (cas-témoins, cas-croisé, cohorte, évaluations de<br />

risque sanitaire,…) utilisés.<br />

Définitions<br />

Afin de faciliter la lecture du document, une courte définition <strong>des</strong> principales approches et types<br />

d’étu<strong>des</strong> rencontrés dans cette enquête est rappelée ci-<strong>des</strong>sous.<br />

Approches épidémiologiques<br />

Approche de type « Ecologique » 20<br />

Terme désignant toute étude ou analyse basée, non pas sur une ou plusieurs population(s)<br />

sélectionnée(s) individu par individu, en fonction <strong>des</strong> critères prévus par le protocole, mais<br />

sur <strong>des</strong> <strong>données</strong> populationnelles globales (<strong>données</strong> agrégées), disponibles à l'échelon<br />

d'une région ou d'un pays et généralement non collectées dans ce but.<br />

17 Zone d'emploi : espace géographique à l'intérieur duquel la plupart <strong>des</strong> actifs résident et travaillent<br />

(actuellement 348 zones d’emploi pour la France métropolitaine). Source : Insee. En ligne :<br />

http://www.insee.fr/fr/nom_def_met/definitions/html/accueil.htm<br />

18 Ilot : Unité géographique de base pour la statistique et la diffusion du recensement. Source : Insee. En<br />

ligne : http://www.insee.fr/fr/nom_def_met/definitions/html/accueil.htm<br />

19 IRIS : îlots regroupés pour l'information statistique, briques de base en matière de diffusion de <strong>données</strong><br />

locales. La France en compte environ 50 800 (50 100 en métropole et 700 dans les DOM). Source : Insee. En<br />

ligne : http://www.insee.fr/fr/nom_def_met/definitions/html/accueil.htm<br />

20 Bégaud B. (1998). Dictionnaire de pharmaco-épidémiologie, 3 ème édition. Bordeaux : Arme-<br />

Pharmacovigilance Éditions. 248 p.<br />

Juin 20<strong>08</strong> page 30


Afsset • RAPPORT « Action 35 du PNSE : enquête sur le croisement de <strong>données</strong> »<br />

Approche de type « Contextuelle » 21<br />

L’approche contextuelle s’est développée en épidémiologie sociale pour permettre, à la<br />

différence de l’approche écologique, d’analyser à la fois et simultanément <strong>des</strong> <strong>données</strong><br />

collectées au niveau individuel et collectif pour avancer dans la compréhension <strong>des</strong><br />

déterminants sociaux de la santé et tenir compte par conséquent du contexte.<br />

Approche de type « Individuelle »<br />

Dans le cadre de ce projet, sont considérées comme ayant une approche « individuelle »<br />

toute étude ou analyse dont l’unité statistique est l’individu.<br />

Etude épidémiologique<br />

Etude de type « Cas-témoins » 20<br />

Plan d'étude épidémiologique consistant à comparer un groupe de sujets présentant un<br />

événement donné (les cas) et un groupe de sujets ne le présentant pas (les témoins) quant<br />

à leur exposition antérieure à un facteur de risque donné ou la présence d'une<br />

caractéristique.<br />

Etude de type « Cas-croisé » 20<br />

Méthode consistant à évaluer une éventuelle association entre une exposition et la<br />

survenue d'un événement en comparant, au terme du suivi d'une population dont le statut<br />

d'exposition a changé au cours du temps, le nombre de cas survenus à l'intérieur et en<br />

dehors d'une fenêtre d'exposition préalablement définie. Ce type d’étude est également<br />

appelé « cas-propre-témoin » (« case-crossover » en anglais).<br />

Etude de type « Cohorte » 20<br />

Groupe de sujets sélectionnés en fonction d'une (ou plusieurs) caractéristique(s)<br />

commune(s) et suivis dans le temps dans le but d'identifier, de décrire ou de quantifier un<br />

phénomène. Le terme d'étude de cohorte ne préjuge ni d'un protocole ni d'une taille<br />

d'échantillon donnés. Il peut ainsi désigner une étude menée sur un échantillon de petite ou<br />

grande taille, avec ou sans groupe de comparaison (ce dernier pouvant être constitué ou<br />

non par tirage au sort ou appariement).<br />

Etude de type « transversale » 20<br />

Etude mesurant la prévalence d'une variable (exposition, événement, maladie, etc.) dans<br />

une population à un instant donné (synonyme : étude de prévalence). Dans une étude<br />

transversale, il n'y a, par définition, ni suivi, ni exploration du passé. Il est cependant<br />

possible d'étudier l'éventuelle association d'un événement à une caractéristique (par<br />

exemple une exposition) ; l'absence de <strong>données</strong> chronologiques sur la relation<br />

exposition/événement expose cependant à <strong>des</strong> erreurs d'interprétation.<br />

21 Chaix B., Chauvin P. (2005). L’analyse contextuelle en épidémiologie sociale : avancées et perspectives.<br />

In : Document d’orientation scientifique, séminaire « santé-environnement et santé-travail, nouvelles<br />

perspectives de recherches » (31 mars – 1 er avril 2005) – Part 3.2. Ministère délégué à la Recherche.<br />

Juin 20<strong>08</strong> page 31


Afsset • RAPPORT « Action 35 du PNSE : enquête sur le croisement de <strong>données</strong> »<br />

Autres types d’étude<br />

Etude d’évaluation de risque sanitaire 22<br />

Démarche méthodique de synthèse <strong>des</strong> connaissances scientifiques disponibles en vue<br />

d’évaluer les effets sur la santé résultant d’une exposition d’une population ou d’individus à<br />

une substance, un agent ou une situation dangereuse.<br />

« Analyse spatiale » 23<br />

Raisonnement qui permet de déduire les caractéristiques d’un phénomène en croisant <strong>des</strong><br />

<strong>données</strong> géographiques.<br />

Il est à noter qu’une étude épidémiologique se caractérise par un type « d’étude » et un type<br />

« d’approche » définis au préalable.<br />

Classification <strong>des</strong> étu<strong>des</strong> selon leurs caractéristiques méthodologiques<br />

Les étu<strong>des</strong> rencontrées dans cette enquête sont réparties par approche épidémiologique d’analyse<br />

dans le tableau ci-<strong>des</strong>sous. L’approche de type « écologique » est la plus utilisée (9 fois). A noter<br />

que même si l’approche est le plus souvent de type « écologique », les sources de <strong>données</strong> pour<br />

construire l’indicateur sanitaire sont fréquemment <strong>des</strong> sources de <strong>données</strong> individuelles (constat<br />

pour 16 étu<strong>des</strong> au total).<br />

Tableau 7 : Répartition <strong>des</strong> étu<strong>des</strong> en fonction du type d’approche<br />

Type d’approche<br />

Nb d’étu<strong>des</strong><br />

Approche de type « écologique » 9<br />

Approche de type « contextuelle » 1<br />

Approche de type « individuelle » 6<br />

Sans objet * 2<br />

Total 17<br />

* Sont concernées les évaluations de risque sanitaire et les analyses<br />

spatiales<br />

Le tableau ci-<strong>des</strong>sous présente une répartition <strong>des</strong> étu<strong>des</strong> en fonction du type d’étude. Les étu<strong>des</strong><br />

rencontrées sont majoritairement <strong>des</strong> étu<strong>des</strong> de cohorte. A noter qu’il n’est pas incompatible de<br />

réaliser une étude de cohorte avec une approche écologique.<br />

22 Committee on the Institutional Means for Assessment of Risks to Public Health. Commission on Life<br />

Sciences, National Research Council (1983). Risk Assessment in the Federal Government: Managing the<br />

Process. Washington, DC.: National Academy Press. 191 p.<br />

23 Définition tirée du glossaire scientifique développe par la Maison de la télédétection en Languedoc-<br />

Roussillon disponible sur Internet :<br />

http://www.teledetection.fr/index.php?option=com_glossary&func=display&Itemid=286&catid=140<br />

Juin 20<strong>08</strong> page 32


Afsset • RAPPORT « Action 35 du PNSE : enquête sur le croisement de <strong>données</strong> »<br />

Tableau 8 : Répartition <strong>des</strong> étu<strong>des</strong> en fonction du type d’étude<br />

Type d’étude Nb d’étu<strong>des</strong> Dont nb d’étu<strong>des</strong><br />

avec approche<br />

écologique<br />

Etude épidémiologique 15 9<br />

Cas/Témoin 2 1<br />

Cohorte 10 6<br />

Cas/Croisé 2 2<br />

Transversale 1 0<br />

Etude d’évaluation de risque<br />

sanitaire<br />

1 Sans Objet<br />

« Analyse spatiale » 1 Sans Objet<br />

Il est à noter que l’objectif d’utilisation d’une base de <strong>données</strong> sanitaire et/ou médico-administrative<br />

diffère selon l’approche et le type d’étude. Dans le cadre d’une étude de cohorte avec une<br />

approche individuelle, ces bases de <strong>données</strong> servent à identifier et à suivre dans le temps les<br />

individus.<br />

3.1.3 Sources de <strong>données</strong><br />

Au total, les équipes rencontrées ont fait appel à 38 gestionnaires de <strong>données</strong>, dont 21 pour<br />

lesquels le territoire couvert est inférieur au territoire national.<br />

Les principaux gestionnaires de <strong>données</strong> concernés sont présentés dans le tableau ci-<strong>des</strong>sous.<br />

Les registres de surveillance épidémiologique (ex. registres généraux du cancer, registres<br />

spécialisés) sont les principales sources de <strong>données</strong> utilisées pour construire les indicateurs<br />

sanitaires à l’étude. Météo-France et les associations agréées de surveillance de la qualité de l’air<br />

(Aasqa) sont principalement sollicités pour l’exposition (ce qui s’explique par le fait que la majorité<br />

<strong>des</strong> étu<strong>des</strong> dans l’enquête traitent de la pollution atmosphérique). Enfin, l’Insee est une source de<br />

<strong>données</strong> très recherchée, souvent indispensable dans la construction <strong>des</strong> indicateurs sanitaires ou<br />

d’exposition, et naturellement pour les facteurs confondants « populationnels ».<br />

Tableau 9 : Liste <strong>des</strong> principaux gestionnaires de bases de <strong>données</strong><br />

concernés et nombre d’étu<strong>des</strong> associées<br />

Principaux Gestionnaires<br />

Nb d’étu<strong>des</strong><br />

Registres de surveillance épidémiologique 8<br />

Insee 7<br />

Météo-France 5<br />

Aasqa 4<br />

Les gestionnaires de bases de <strong>données</strong> procèdent très souvent à un prétraitement <strong>des</strong> <strong>données</strong><br />

avant leur mise à disposition aux utilisateurs (extraction <strong>des</strong> variables d’intérêt, agrégation <strong>des</strong><br />

<strong>données</strong>, consolidation <strong>des</strong> <strong>données</strong>,…). C’est le cas pour 14 étu<strong>des</strong>, principalement <strong>des</strong> étu<strong>des</strong><br />

écologiques.<br />

Dans le cas d’une mise à disposition de <strong>données</strong> de santé à caractère personnel, le gestionnaire<br />

de la base de <strong>données</strong> est toujours acteur du traitement <strong>des</strong> <strong>données</strong>. Il s’agit d’une « condition »<br />

Juin 20<strong>08</strong> page 33


Afsset • RAPPORT « Action 35 du PNSE : enquête sur le croisement de <strong>données</strong> »<br />

pour remplir les obligations relatives à la Loi informatique et libertés 24 liées à la collecte et à<br />

l’utilisation de <strong>données</strong> personnelles comme <strong>données</strong> brutes.<br />

3.1.4 Outils appliqués aux <strong>données</strong><br />

L’utilisation de <strong>données</strong> existantes à <strong>des</strong> fins différentes de celles pour lesquelles elles ont été<br />

collectées implique de nombreuses étapes de transformation, notamment :<br />

Géocodage ;<br />

changement d’échelle spatiale ;<br />

changement d’unité temporelle ;<br />

contrôle qualité ;<br />

modélisation ;<br />

traitement <strong>des</strong> <strong>données</strong> manquantes.<br />

Un travail de géocodage est effectué principalement sur les <strong>données</strong> sanitaires. Des agrégations<br />

temporelles et/ou spatiales sont opérées afin de pallier les décalages existants sur les <strong>données</strong><br />

sources.<br />

Des métho<strong>des</strong> de traitement <strong>des</strong> <strong>données</strong> manquantes (valeurs de la littérature, estimations par<br />

modèle statistique) sont appliquées par les équipes scientifiques pour pallier une non-exhaustivité<br />

<strong>des</strong> <strong>données</strong>, une absence de valeurs pour un pas de temps spécifique, ou d’autres difficultés.<br />

Le tableau ci-<strong>des</strong>sous présente le nombre d’étu<strong>des</strong> pour lesquelles un outil de modélisation et/ou<br />

un système d’information géographique (SIG) 25 ont été utilisés en fonction du type d’étude. Un<br />

outil de modélisation permettant d’arriver à une estimation de l’exposition (ex : modèle de<br />

dispersion atmosphérique,…) a au total été employé pour 7 étu<strong>des</strong>.<br />

Tableau 10 : Nombre d’étu<strong>des</strong> avec emploi d’un outil de modélisation pour<br />

définir l’exposition, d’un outil SIG en fonction du type d’étude<br />

Type d’étude<br />

Nb d’étu<strong>des</strong><br />

Nb d’étu<strong>des</strong><br />

utilisant un outil<br />

de modélisation<br />

Nb d’étu<strong>des</strong><br />

utilisant un SIG<br />

Cas/Témoin 2 2 2<br />

Cohorte 10 2 2<br />

Cas/Croisé 2 1 1<br />

Transversale 1 1 1<br />

Evaluation de risque sanitaire 1 0 1<br />

Analyse spatiale 1 1 1<br />

Par ailleurs, <strong>des</strong> logiciels informatiques spécifiques ont été développés pour quatre étu<strong>des</strong> :<br />

logiciel d’extraction et d’anonymisation de <strong>données</strong> de santé à caractère<br />

personnel (étude n°1) ;<br />

24 Loi n° 78-17 du 6 Janvier 1978 relative à l'informa tique, aux fichiers et aux libertés.<br />

25 SIG : « système informatique de matériels, de logiciels, et de processus conçus pour permettre la collecte,<br />

la gestion, la manipulation, l'analyse, la modélisation et l'affichage de <strong>données</strong> à référence spatiale afin de<br />

résoudre <strong>des</strong> problèmes complexes d'aménagement et de gestion ». Source : FICCDC, 1988, USA (comité<br />

fédéral de coordination inter-agences pour la cartographie numérique).<br />

Juin 20<strong>08</strong> page 34


Afsset • RAPPORT « Action 35 du PNSE : enquête sur le croisement de <strong>données</strong> »<br />

logiciel d’extraction de <strong>données</strong> et de reformatage de la base (étude n°15, n°8) ;<br />

logiciel de saisie automatique pour la construction d’un questionnaire (étude n° 18).<br />

A retenir<br />

Ce retour d’expérience est au regard <strong>des</strong> étu<strong>des</strong> sélectionnées principalement axé sur :<br />

la pollution atmosphérique ;<br />

les étu<strong>des</strong> de cohorte ;<br />

un niveau d’analyse départemental à local ;<br />

une exposition rétrospective et continue.<br />

En ce qui concerne les bases de <strong>données</strong>, il est constaté :<br />

<br />

<br />

<br />

<br />

une connaissance partielle <strong>des</strong> bases de <strong>données</strong> utilisées par les équipes de<br />

scientifiques ;<br />

une forte implication <strong>des</strong> gestionnaires <strong>des</strong> bases de <strong>données</strong> dans l’étude par le<br />

traitement ou le prétraitement <strong>des</strong> <strong>données</strong> ;<br />

une faible utilisation <strong>des</strong> bases de <strong>données</strong> nationales (concordant avec le caractère<br />

local <strong>des</strong> étu<strong>des</strong>) ;<br />

un recours aux bases de <strong>données</strong> sanitaires et/ou médico-administratives<br />

correspondant à deux objectifs : (1) une identification et un suivi dans le temps <strong>des</strong><br />

individus (cas <strong>des</strong> étu<strong>des</strong> de cohorte avec une approche individuelle) ; (2) croisement<br />

à proprement parler <strong>des</strong> <strong>données</strong> sanitaires avec <strong>des</strong> <strong>données</strong> de facteurs de risques<br />

environnementaux.<br />

Juin 20<strong>08</strong> page 35


Afsset • RAPPORT « Action 35 du PNSE : enquête sur le croisement de <strong>données</strong> »<br />

3.2 Analyse de la perception <strong>des</strong> équipes rencontrées<br />

Toutes les étu<strong>des</strong> rencontrées visent à observer ou analyser les liens entre un effet sanitaire et un<br />

ou plusieurs facteurs de risque potentiels et réalisent pour cela <strong>des</strong> croisements de <strong>données</strong><br />

issues de bases ou sources distinctes, au travers d’outils statistiques ou de SIG.<br />

La réalisation in fine de ce croisement résulte de plusieurs étapes :<br />

la planification de l’étude : l’équipe s’appuie sur une analyse critique <strong>des</strong> références<br />

scientifiques pour dégager un cadre conceptuel et permettre la formulation de la<br />

question spécifique de recherche. La variable d’intérêt, la ou les variable(s)<br />

explicative(s), la nature de la relation entre les variables et la population visée sont<br />

définies. L’hypothèse de départ guide le type d’étude et d’analyse <strong>des</strong> <strong>données</strong> à<br />

réaliser, et permet d’identifier les différentes variables confondantes à contrôler ;<br />

l’identification <strong>des</strong> sources de <strong>données</strong> permettant la construction <strong>des</strong> différentes<br />

variables à l’étude (à expliquer, explicatives et confondantes), et les modalités d’accès<br />

à ces sources de <strong>données</strong> au vu <strong>des</strong> aspects financiers, juridiques ou humains ;<br />

l’analyse de la qualité et de la représentativité <strong>des</strong> bases de <strong>données</strong> au regard de<br />

l’objectif de l’étude (choix d’une base de <strong>données</strong>, validité et représentativité <strong>des</strong><br />

<strong>données</strong>) impliquant parfois un retour aux sources de <strong>données</strong> brutes constituant la<br />

base de <strong>données</strong> ou l’application d’hypothèses simplificatrices ;<br />

le prétraitement <strong>des</strong> bases de <strong>données</strong> effectué par l’équipe scientifique ou le<br />

gestionnaire de <strong>données</strong> lui-même (nettoyage de la base, complétion <strong>des</strong> <strong>données</strong><br />

manquantes) ;<br />

la construction de <strong>données</strong> ad hoc lorsque les équipes scientifiques ne trouvent pas les<br />

sources de <strong>données</strong> adéquates par rapport aux objectifs de l’étude ;<br />

la transformation <strong>des</strong> <strong>données</strong> (homogénéisation, agrégation ou désagrégation <strong>des</strong><br />

<strong>données</strong>) et la construction de variables d’intérêt pour l’étude.<br />

L’objet de la présente enquête est de comprendre comment ces croisements de <strong>données</strong> sont<br />

effectués en essayant de faire ressortir les problèmes rencontrés au cours <strong>des</strong> étapes précitées,<br />

dans un contexte d’utilisation de bases de <strong>données</strong> existantes dont la vocation initiale<br />

(réglementaire, médico-économique…) n’était pas nécessairement d’être utilisées pour <strong>des</strong> étu<strong>des</strong><br />

scientifiques en santé-environnement.<br />

3.2.1 Sources de <strong>données</strong> et modalités d’accès<br />

La pratique de la santé-environnement, interdisciplinaire par définition, requière l’utilisation de<br />

nombreuses <strong>données</strong> par nature très diversifiée et le recours à une grande variété de sources de<br />

<strong>données</strong> : bases de <strong>données</strong>, questionnaires (étu<strong>des</strong> n°3, n°6.2, n°9 n°18), images satellites<br />

(étu<strong>des</strong> n°5, n°11), modèles numériques de terrain ( étude n°11), et ainsi de suite.<br />

Les entretiens nous ont permis de constater que certaines équipes ont parfois <strong>des</strong> difficultés à<br />

identifier précisément le gestionnaire, ainsi que le nom et les caractéristiques exactes <strong>des</strong> bases<br />

de <strong>données</strong> utilisées. Cette identification constitue un travail en soi et par conséquent du temps en<br />

plus que les équipes ne peuvent pas toujours fournir par manque de personnel.<br />

Pour pallier l’absence de <strong>données</strong> mesurées dans la construction <strong>des</strong> indicateurs d’exposition à<br />

<strong>des</strong> facteurs environnementaux, <strong>des</strong> <strong>données</strong> calculées à partir de modèles mathématiques sont<br />

fréquemment utilisées (étude n°2, n°3, n°6.1, n°6.2 , n°7, n°8, n°9, n°11, n°13). Ces modèles ne<br />

peuvent être utilisés sans être alimentés par de nombreuses sources de <strong>données</strong>. Dans l’étude<br />

Juin 20<strong>08</strong> page 36


Afsset • RAPPORT « Action 35 du PNSE : enquête sur le croisement de <strong>données</strong> »<br />

n°7 par exemple, le modèle déterministe de chimie-t ransport utilisé pour calculer un indice de<br />

pollution à l’ozone nécessite en <strong>données</strong> d’entrées <strong>des</strong> prévisions météorologiques, les émissions<br />

industrielles et routières, les conditions aux limites du domaine étudié,…<br />

La démarche de recherche de ces sources de <strong>données</strong> apparait comme généralement informelle<br />

et très chronophage (connaître et contacter les gestionnaires, identifier et comprendre les <strong>données</strong><br />

disponibles...). Ce constat pourrait être expliqué en partie par cette grande diversité <strong>des</strong> sources<br />

de <strong>données</strong> utiles pour une étude : exemple dans le cas de l’étude n°7 : SAMU, SOS médecins,<br />

réseau sentinelles, registre <strong>des</strong> cardiopathies ischémiques du Bas-Rhin, régimes d’assurance<br />

maladie, Insee, RNSA, Météo-France, source EPER, sources de <strong>données</strong> sur le trafic routier.<br />

Qui plus est, cette démarche apparait également individuelle étant donné l’absence de véritable<br />

« culture du partage » relatée par les équipes scientifiques rencontrées (étude n°1, n°3, n°5, n°7,<br />

n°11, n°16), même si plusieurs équipes travaillent sur <strong>des</strong> sujets proches et utilisent finalement les<br />

mêmes bases de <strong>données</strong>. L’accès à <strong>des</strong> <strong>données</strong> publiques devient vite un élément de<br />

différenciation entre les équipes scientifiques lors de leurs réponses aux appels à projets de<br />

recherche ou lors de leurs évaluations à mi-parcours.<br />

Relationnel<br />

Les modalités d’accès aux <strong>données</strong> semblent reposer fréquemment sur le relationnel et la<br />

négociation. Les <strong>données</strong> du SNIIR-AM ont été par exemple mises à disposition de l’Ir<strong>des</strong> dans le<br />

cadre de l’exploitation de l’enquête ESPS (étude n°12), alors que de nombreuses équipes tentent<br />

depuis plusieurs années de négocier avec la CNAMTS pour l’accès à ces <strong>données</strong>.<br />

Dans l’étude n°9, le recueil de <strong>données</strong> relatives a ux incinérateurs et aux émissions a été plus ou<br />

moins facile selon la bonne volonté <strong>des</strong> exploitants ; la principale difficulté a concerné l'accès aux<br />

archives <strong>des</strong> petits exploitants, en particulier pour les incinérateurs ayant cessé leur activité. Les<br />

Drire n'ont en général pas souhaité prendre la responsabilité de divulguer les informations.<br />

La coopération avec les fournisseurs de <strong>données</strong>, bien que relativement bonne et constructive<br />

dans son ensemble, peut s’avérer difficile dans certains cas avec pour conséquence un accès<br />

retardé à certaines <strong>données</strong>. Exemples avec la SNCF pour le trafic ferroviaire dans l’étude n°6.2 ;<br />

avec les cliniques privées dans l’étude n°1, avec l es exploitants de distribution d’eau potable dans<br />

l’étude n°16.<br />

A noter que le gestionnaire de <strong>données</strong> n’est pas toujours en mesure, par manque de temps ou de<br />

personnel, de répondre en temps et en heure aux deman<strong>des</strong> souvent très nombreuses <strong>des</strong><br />

équipes scientifiques.<br />

Encadrement juridique<br />

Dans les étu<strong>des</strong> rencontrées, une convention de recherche est systématiquement signée avec de<br />

nombreux fournisseurs de <strong>données</strong> (ex. Météo-France, RNSA, régimes d’assurance maladie, IMS<br />

Health, SAMU et SOS Médecins,…).<br />

L’obtention par les équipes scientifiques <strong>des</strong> images satellites Spot 5 nécessite au préalable<br />

d’effectuer une demande ISIS (Incitation à l'Utilisation Scientifique <strong>des</strong> Images Spot, valable pour<br />

les images d'archives) auprès de MédiasFrance pour le Cnes. Le délai normal de réponse est de 3<br />

semaines mais dans l’étude n°11, il a fallu attendr e six mois pour obtenir les <strong>données</strong> et dans<br />

l’étude n°5, un an et demi. Ce délai est lié au res pect d’une clause d’accès qui stipule que les<br />

images satellites ne peuvent être diffusées avant leur exploitation par un service de l’État.<br />

Les recherches dans le domaine de la santé sont soumises à l’application de la loi Informatique et<br />

Libertés du 6 janvier 1978 pour les traitements de <strong>données</strong> à caractère personnel mis en œuvre<br />

par les équipes de recherche. Seize équipes de recherche utilisent <strong>des</strong> sources de <strong>données</strong><br />

comportant <strong>des</strong> <strong>données</strong> à caractère personnel. Il convient donc pour ces équipes scientifiques<br />

d’engager une demande d’autorisation d’accès aux <strong>données</strong> auprès de la Cnil (appuyé si<br />

nécessaire par l’avis du CCTIRS) et de respecter ses restrictions et recommandations éventuelles<br />

Juin 20<strong>08</strong> page 37


Afsset • RAPPORT « Action 35 du PNSE : enquête sur le croisement de <strong>données</strong> »<br />

relatives aux protocoles de recherche et aux traitements de <strong>données</strong> à caractère personnel qui en<br />

découlent.<br />

Un effet direct de ces dispositions réglementaires est l’implication du fournisseur de <strong>données</strong> dans<br />

le projet de recherche : registres généraux de cancer (étu<strong>des</strong> n°2, 6.1 et 18), registre national <strong>des</strong><br />

leucémies et lymphomes de l’enfant (étude n°4), Cen tre hospitalier de Cayenne (étude n°5).<br />

Pour obtenir les <strong>données</strong> souhaitées tout en respectant ces restrictions légales, <strong>des</strong> outils ou <strong>des</strong><br />

procédures spécifiques sont parfois nécessaires et par conséquent développés à façon.<br />

L’Institut de Veille Sanitaire a développé un outil informatique à visée épidémiologique permettant<br />

d’extraire les <strong>données</strong> du PMSI 26 , à partir du département d’information médicale de chaque<br />

établissement hospitalier chargé du recueil, de la circulation et du traitement <strong>des</strong> <strong>données</strong><br />

médicales. Il permet d’extraire les résumés de sortie standardisés 27 selon <strong>des</strong> critères définis pour<br />

l’étude et de les anonymiser.<br />

L’impossibilité réglementaire d’utiliser <strong>des</strong> identifiants communs entre les bases de <strong>données</strong> (ex.<br />

Numéro d’Inscription au Répertoire (NIR) appelé également numéro Insee), peut rendre complexe<br />

l’obtention de certaines <strong>données</strong> et nécessiter la mise en place de procédures particulières<br />

complexes.<br />

Dans l’étude n°3, un <strong>des</strong> objectifs en cours de réal isation est d’associer pour chaque<br />

individu de la cohorte les <strong>données</strong> de morbidité hospitalière et de consommation de<br />

soins provenant du SNIIR-AM (CNAM-TS). Afin d’être acceptée par la CNIL, cette<br />

procédure d’appariement nécessite un double encryptage du NIR, sous réserve que<br />

l’équipe scientifique ne soit en aucun cas en possession du numéro Insee et que le NIR<br />

et ses deux versions encryptées ne se retrouvent jamais toutes les trois au même<br />

endroit.<br />

Dans l’étude n°6.2, une fonction de lien devait êtr e créée entre les résultats <strong>des</strong><br />

évaluations scolaires d’enfants effectuées par l’Inspection académique, leur lieu<br />

d’habitation associé à une exposition sonore environnementale et <strong>des</strong> <strong>données</strong><br />

recueillies par questionnaire, tout en respectant l’anonymat.<br />

La solution trouvée a consisté à anonymiser l'ensemble <strong>des</strong> <strong>données</strong> de manière<br />

indépendante entre les différentes sources ; trois identifiants ont dû être créés et la<br />

fonction de lien a été faite par l’Inspection académique (détenteur institutionnel <strong>des</strong><br />

<strong>données</strong> nominatives), seule détentrice <strong>des</strong> trois identifiants. Par ailleurs, cette<br />

procédure a été acceptée par la Cnil sous condition d’une agrégation <strong>des</strong> informations<br />

au niveau de l’IRIS.<br />

Dans l’étude n°18, l’objectif vise à étudier l’inci dence <strong>des</strong> cancers et la mortalité <strong>des</strong><br />

agriculteurs ou retraités de l’agriculture, en explorant la part <strong>des</strong> facteurs liés aux<br />

activités professionnelles. La base de <strong>données</strong> de la Mutuelle Sociale Agricole (MSA) a<br />

26 Programme de Médicalisation <strong>des</strong> Systèmes d’Information. Depuis la loi du 31 juillet 1991 portant sur la<br />

réforme hospitalière, les établissements de santé publics et privés doivent procéder à l’analyse de leur<br />

activité médicale et transmettre aux services de l’État et à l’Assurance maladie « les informations relatives à<br />

leurs moyens de fonctionnement et à leur activité ». À cette fin ils doivent « mettre en œuvre <strong>des</strong> systèmes<br />

d’information qui tiennent compte notamment <strong>des</strong> pathologies et <strong>des</strong> mo<strong>des</strong> de prise en charge » ; ce qui<br />

constitue le PMSI.<br />

27 Tout séjour hospitalier dans la partie MCO (médecine, chirurgie, obstétrique) d’un établissement de santé<br />

public ou privé doit donner lieu à la production d’un résumé de sortie standardisé (RSS), qui comprend <strong>des</strong><br />

informations administratives et médicales, dont la date d’entrée dans l’établissement. Les RSS sont transmis<br />

à l’ATIH (gestionnaire du PMSI) sous forme de résumés de sortie anonymisées (RSA), où les dates d’entrée<br />

et de sortie sont remplacées par la durée de séjour, le mois et l’année de sortie.<br />

Juin 20<strong>08</strong> page 38


Afsset • RAPPORT « Action 35 du PNSE : enquête sur le croisement de <strong>données</strong> »<br />

Coût financier<br />

permit d’identifier les individus à intégrer à une cohorte (6 000 agriculteurs). Afin de<br />

relier un individu à une cause de décès une procédure spécifique a été élaborée.<br />

Le fichier nominatif comprenant l’identité <strong>des</strong> 6 000 agriculteurs a été adressé à l’Insee<br />

qui a déterminé le statut vital <strong>des</strong> individus. Par la suite, l’Insee a constitué un fichier<br />

comprenant une liste <strong>des</strong> numéros de décès <strong>des</strong> individus de la cohorte identifiés<br />

comme décédés. Ce fichier a été adressé par l’Insee au centre d’épidémiologie sur les<br />

causes médicales de décès de l’Inserm (CépiDC), qui a associé, à chaque numéro de<br />

décès, la cause principale, les causes associées et la date de décès.<br />

Dans la majorité <strong>des</strong> cas, les fournisseurs de <strong>données</strong> mettent gratuitement les <strong>données</strong> à<br />

disposition <strong>des</strong> équipes scientifiques (<strong>données</strong> <strong>des</strong> Aasqa, <strong>des</strong> régimes d’Assurance Maladie,<br />

d’IMS Health, du SAMU, de SOS Médecins, <strong>des</strong> registres généraux du cancer, de SISE-EAUX,…).<br />

En revanche, un service supplémentaire est parfois nécessaire de la part du fournisseur ou d’une<br />

tierce partie, qui peut donner lieu à une compensation financière. Dans le cadre de l’étude n°2, les<br />

registres ont été rémunérés pour leur travail de recodage <strong>des</strong> cas en CIM-O2 28 et de recherches<br />

complémentaires sur les adresses de résidence. Dans le cadre de l’étude n°1, le recueil <strong>des</strong><br />

<strong>données</strong> dans les départements d’information médicale <strong>des</strong> établissements hospitaliers a<br />

nécessité l’embauche d’un moniteur d’étude à temps plein pendant 3 mois.<br />

Quand l’accès aux <strong>données</strong> est payant, <strong>des</strong> tarifs préférentiels sont en général appliqués dans le<br />

cadre d’un projet de recherche. C’est le cas de Météo France. De même, les images d’archive <strong>des</strong><br />

satellites Spot sont payantes avec un tarif préférentiel dans le cadre d’une demande ISIS -<br />

Incitation à l’Utilisation Scientifique <strong>des</strong> Images Spot 29 (étude n°11).<br />

A noter que le tarif appliqué ne semble pas être toujours identique sur l’ensemble du territoire<br />

national pour un même fournisseur de <strong>données</strong> (ex. Météo-France dans les étu<strong>des</strong> n°5, n°9 et<br />

n°13), et que certains fournisseurs de <strong>données</strong> ne p ratiquent pas de tarifs préférentiels (ex. les<br />

<strong>données</strong> de Modèle Numérique de Terrain à haute résolution fournies par l’IGN).<br />

A retenir<br />

La diversité <strong>des</strong> sources de <strong>données</strong> nécessaires à la réalisation d’une étude implique un long<br />

travail de recherche <strong>des</strong> <strong>données</strong> par l’équipe scientifique en l’absence d’une véritable culture du<br />

partage.<br />

Les modalités d’accès aux <strong>données</strong> peuvent occuper une place non négligeable dans le<br />

calendrier d’une étude même si un effort particulier <strong>des</strong> gestionnaires de bases de <strong>données</strong> pour<br />

fournir <strong>des</strong> <strong>données</strong> dans un délai acceptable est souvent constaté, en raison de barrières<br />

institutionnelles parfois difficiles à lever, et de démarches administratives permettant de remplir<br />

les conditions légales relativement longues.<br />

Les modalités d’accès aux <strong>données</strong> semblent reposer très souvent sur le relationnel et la<br />

négociation avant de faire l’objet d’un encadrement juridique.<br />

Par ailleurs, il est à noter que l’accès aux <strong>données</strong> peut représenter un coût financier ou en<br />

ressource humaine non négligeable pour l’équipe scientifique.<br />

28 CIM-O2 : classification internationale <strong>des</strong> maladies pour l’oncologie, version 2.<br />

29 Procédure permettant de bénéficier de tarifs préférentiels dans le cadre d’une utilisation <strong>des</strong> images dans<br />

le cadre de projets de recherche.<br />

Juin 20<strong>08</strong> page 39


Afsset • RAPPORT « Action 35 du PNSE : enquête sur le croisement de <strong>données</strong> »<br />

3.2.2 Qualité et représentativité <strong>des</strong> <strong>données</strong> au regard <strong>des</strong> objectifs de l’étude<br />

L’identification <strong>des</strong> bases ayant eu lieu, les équipes scientifiques effectuent une analyse <strong>des</strong><br />

<strong>données</strong> disponibles et évaluent leur adéquation aux objectifs scientifiques de l’étude, permettant<br />

le dépistage précoce de biais ou d’incertitu<strong>des</strong> qui pourraient apparaître pendant l’étude.<br />

Quelques exemples sont fournis ci-<strong>des</strong>sous à titre illustratif.<br />

Des informations sur les hospitalisations pour causes respiratoires ou cardiovasculaires<br />

sont recherchées dans l’étude n°1 pour construire <strong>des</strong> indicateurs sanitaires<br />

d’effets aigus. La distinction entre les admissions programmées et les admissions en<br />

urgence dans les départements d’information médicale n’étant pas faisable, la présence<br />

de ces admissions programmées dans les <strong>données</strong> recueillies représente une source<br />

potentielle de « bruit » susceptible d’entraîner un manque de spécificité <strong>des</strong> indicateurs<br />

sanitaires étudiés.<br />

De plus, <strong>des</strong> risques de biais de codage sont constatés sur le diagnostic principal au<br />

niveau <strong>des</strong> informations recueillies dans les départements d’information médicale <strong>des</strong><br />

établissements hospitaliers étant donné le caractère médico-économique du PMSI,<br />

notamment dans le cas de poly-pathologies où le diagnostic principal codé est souvent<br />

celui qui a mobilisé le plus de soins.<br />

Dans l’étude n°3, les caractéristiques de l’environ nement social de résidence à une<br />

échelle plus fine qu’à celle <strong>des</strong> IRIS sont souhaitées pour chaque individu intégré à<br />

l’étude. Cependant les <strong>données</strong> de l’Insee issues du recensement ou <strong>des</strong> bases de<br />

revenus <strong>des</strong> impôts ne sont pas diffusées à l’extérieur de l’Insee à un niveau infra-IRIS.<br />

Une convention a été signée entre l’Insee et l’équipe scientifique, autorisant le<br />

chercheur de l’étude à manipuler <strong>des</strong> <strong>données</strong> infra-IRIS dans les locaux de l’Insee et à<br />

extraire uniquement <strong>des</strong> <strong>données</strong> agrégées au niveau <strong>des</strong> zones d’intérêt pour l’étude<br />

(ex. zones centrées sur le lieu de résidence d’un individu tenant compte du réseau de<br />

rues environnant).<br />

Il est constaté dans l’étude n°1 que la couverture géographique <strong>des</strong> stations de<br />

mesures du Réseau national de Surveillance Aérobiologique (RNSA) et de Météo<br />

France n’est pas toujours suffisante dans certaines zones géographiques au regard <strong>des</strong><br />

objectifs de l’étude. Pour exemple, la station Météo-France pour Marseille est située sur<br />

la commune de Marignane à 22 km à l’ouest de Marseille, même si les variations d'un<br />

jour à l'autre sont assez bien corrélées entre les villes proches. A noter que le RNSA<br />

menait au moment de l’enquête un travail de réflexion sur une meilleure implantation<br />

<strong>des</strong> stations.<br />

Le caractère trop ponctuel <strong>des</strong> mesures d’émissions de polluants (<strong>données</strong> <strong>des</strong> Drire)<br />

déclarées par les industriels (1 fois par an) et <strong>des</strong> mesures de la qualité de l’eau de<br />

consommation (<strong>données</strong> <strong>des</strong> Ddass ; fréquence <strong>des</strong> mesures fonction de la population<br />

<strong>des</strong>servie, d’une fois à 4 fois par an) ne permet pas, d’après les équipes concernées,<br />

de prendre en compte les fluctuations et les pics (étude n°9, n°15 et 16). Un risque de<br />

non représentativité <strong>des</strong> mesures par rapport à l’exposition réelle <strong>des</strong> populations à<br />

l’étude peut être induit surtout si le pas de temps de l’exposition pour l’étude est<br />

relativement court (ex. fenêtre d’exposition de trois mois pour les femmes enceintes<br />

dans l’étude n°15).<br />

Dans l’étude n°13, l’objectif est d’estimer l’expos ition de la population à la pollution liée<br />

au transport routier sur le territoire français. Les concentrations en polluants<br />

atmosphériques due au trafic routier sont spatialisées sur l’ensemble du territoire avec<br />

un maillage de 4 km x 4 km ; compromis entre la base de <strong>données</strong> d’occupation du sol<br />

disponible et l’objectif de l’étude. Cette résolution sans être trop fine permet de<br />

distinguer les agglomérations même moyennes <strong>des</strong> zones rurales environnantes.<br />

Juin 20<strong>08</strong> page 40


Afsset • RAPPORT « Action 35 du PNSE : enquête sur le croisement de <strong>données</strong> »<br />

Cette analyse de mise en adéquation peut conduire l’équipe scientifique suivant les cas à (1)<br />

sélectionner une source de <strong>données</strong> même imparfaite mais qui à l’avantage d’être disponible ; (2)<br />

effectuer un retour aux sources de <strong>données</strong> brutes alimentant la source de <strong>données</strong> analysée<br />

quand cela est possible ; et dans tous les cas à poser <strong>des</strong> hypothèses de travail supplémentaires.<br />

Choix d’une source de <strong>données</strong><br />

Il est relativement rare de disposer de plusieurs sources de <strong>données</strong> différentes permettant de<br />

répondre à un objectif d’étude défini. Néanmoins, lorsque c’est le cas, le choix d’une source de<br />

<strong>données</strong> d’intérêt peut dépendre de l’objectif de l’étude, du type d’étude, de l’effet sanitaire à<br />

l’étude, <strong>des</strong> facteurs de risque potentiels ou encore de la zone d’étude.<br />

Même si l’approche est le plus souvent écologique dans les étu<strong>des</strong> rencontrées, le choix se porte<br />

souvent sur <strong>des</strong> sources de <strong>données</strong> individuelles (cas pour 16 étu<strong>des</strong> au total) pour construire<br />

l’indicateur sanitaire et ajuster l’analyse statistique à partir de cofacteurs individuels, agrégées à un<br />

niveau géographique donné par exemple.<br />

Le choix d’une source de <strong>données</strong> par les équipes scientifiques apparaît toujours comme un<br />

compromis entre disponibilité et acceptabilité au regard <strong>des</strong> objectifs de l’étude : dans l’étude n°18<br />

par exemple (estimation de l’incidence <strong>des</strong> cancers et de la mortalité en milieu agricole), où l’une<br />

<strong>des</strong> difficultés a consisté à trouver la source de <strong>données</strong> la plus fiable pour identifier les<br />

agriculteurs à inclure dans la cohorte. Trois sources de <strong>données</strong> étaient envisageables :<br />

le Ministère en charge de l’Agriculture (par le biais du Recensement général agricole),<br />

mais il imposait de devenir propriétaire <strong>des</strong> <strong>données</strong> recueillies auprès <strong>des</strong><br />

agriculteurs ;<br />

l’Insee (Recensement 1990), mais les <strong>données</strong> étaient déclaratives ;<br />

la Mutualité Sociale Agricole (MSA), mais les règles de codage et de conservation <strong>des</strong><br />

<strong>données</strong> varient selon les caisses régionales, sans que les règles précises de chacune<br />

ne soient connues.<br />

Les critères de définition d’un agriculteur semblent varier selon la logique de comptabilisation du<br />

gestionnaire (logique d’occupation du sol pour le Ministère de l’Agriculture et logique de potentiel<br />

économique pour la Mutualité Sociale Agricole) et ne s’avèrent pas connus de façons précises.<br />

Finalement, c’est la MSA qui a été retenue comme source de <strong>données</strong> pour identifier les individus<br />

à inclure dans la cohorte car elle permet une plus grande exhaustivité dans le recensement avec<br />

près de 4 millions de personnes suivies.<br />

Le retour aux producteurs locaux de la donnée<br />

Les bases agrégatives existantes à visée nationale le plus souvent et mises en place pour <strong>des</strong><br />

objectifs de gestion ne répondent pas toujours aux besoins <strong>des</strong> équipes qui sont dans l’obligation<br />

de retourner aux bases locales, ce qui complexifie grandement l’accès aux <strong>données</strong>.<br />

Dans l’étude n°1, <strong>des</strong> informations sur les admissio ns hospitalières pour causes respiratoires ou<br />

cardio-vasculaires sont désirées. La base de <strong>données</strong> du PMSI gérée par l’agence technique de<br />

l’information sur l’hospitalisation (ATIH) est l’unique source de <strong>données</strong> disponible sur l’ensemble<br />

du territoire national. Cependant, la date d’entrée à l’hôpital (du fait de l’anonymisation <strong>des</strong><br />

<strong>données</strong>) n’est pas disponible, rendant impossible l’attribution à un évènement sanitaire et pour<br />

une période donnée, un niveau de pollution atmosphérique. L’équipe scientifique s’est trouvée<br />

dans l’obligation de contacter le Département d’Information Médicale (DIM) 30 de chaque<br />

établissement hospitalier public et privé de la zone d’étude pour obtenir <strong>des</strong> <strong>données</strong> d’intérêt.<br />

30 Département d’Information Médicale, chargé du recueil, de la circulation et du traitement <strong>des</strong> <strong>données</strong><br />

médicales.<br />

Juin 20<strong>08</strong> page 41


Afsset • RAPPORT « Action 35 du PNSE : enquête sur le croisement de <strong>données</strong> »<br />

Dans l’étude n°15, la base SISE-EAUX sur la qualité <strong>des</strong> eaux de consommation consolidée au<br />

niveau national n’a pu être utilisée, ne comportant pas d'information sur les adresses <strong>des</strong>servies<br />

par chaque unité de distribution 31 . Les équipes se sont rabattues sur les gestionnaires locaux à<br />

savoir les Ddass. A noter que ce choix a nécessité une prise de contact avec une centaine de<br />

Ddass.<br />

Hypothèses<br />

Très souvent, il n’existe qu’une seule source de <strong>données</strong> disponible répondant à un objectif donné.<br />

La question du choix de la base de <strong>données</strong> ne se pose donc pas et la faisabilité même de l’étude<br />

de recherche repose sur l’existence de cette seule source d’information. Utiliser <strong>des</strong> sources de<br />

<strong>données</strong> ne répondant pas exactement aux objectifs de l’étude implique bien souvent d’adapter le<br />

protocole de l’étude (s’il n’a pas été construit spécifiquement par rapport à l’existence de la source<br />

de <strong>données</strong>), et ainsi de poser <strong>des</strong> hypothèses supplémentaires.<br />

Pour exemple dans l’étude n°7, les informations rec ueillies auprès de SOS Médecins comportent<br />

uniquement le motif d’appel et l’adresse d’intervention. Ces informations sont considérées dans<br />

l’étude comme <strong>des</strong> proxys du diagnostic et de l’adresse de résidence pour construire l’indicateur<br />

sanitaire.<br />

Dans l’étude n°16, l’insuffisante résolution tempor elle <strong>des</strong> <strong>données</strong> de la qualité de l’eau de<br />

consommation nécessite, afin d’estimer une exposition individuelle moyenne aux trihalométhanes<br />

par trimestre entre 2002 et 2005, de poser les hypothèses suivantes :<br />

il n’y a pas d’évolution annuelle en moyenne <strong>des</strong> concentrations de trihalométhanes<br />

entre 2002 et 2005 ;<br />

la variation saisonnière constatée pour une ville à partir d’un échantillon de <strong>données</strong><br />

représentatif est considérée comme identique dans les autres villes ;<br />

une valeur relevée sur un trimestre est représentative de tout le trimestre.<br />

A retenir<br />

Les équipes axent principalement leurs étu<strong>des</strong> scientifiques sur les <strong>données</strong> disponibles après<br />

un dépistage <strong>des</strong> biais possibles pouvant apparaître au cours de l’étude.<br />

Les bases de <strong>données</strong> à visée nationale et mises en place le plus souvent pour un objectif de<br />

gestion sont finalement délaissées par les équipes scientifiques au profit de bases locales ou<br />

d’un retour aux producteurs locaux <strong>des</strong> <strong>données</strong> qui ont une connaissance « terrain »<br />

indispensable à une exploitation optimale <strong>des</strong> <strong>données</strong>.<br />

Des compromis entre disponibilité <strong>des</strong> sources de <strong>données</strong> et faisabilité de l’étude au regard <strong>des</strong><br />

objectifs sont très souvent trouvés, impliquant la formulation de nouvelles hypothèses de travail.<br />

31 La notion d’Unité de Distribution (UDI) a été introduite pour désigner le réseau ou la partie du réseau<br />

physique de distribution qui délivre une eau de qualité réputée homogène (même origine). Source : rapport<br />

du ministère chargé de la santé (2005), l’eau potable en France entre 2002 et 2004<br />

Juin 20<strong>08</strong> page 42


Afsset • RAPPORT « Action 35 du PNSE : enquête sur le croisement de <strong>données</strong> »<br />

3.2.3 Prétraitement <strong>des</strong> sources de <strong>données</strong><br />

Une fois les sources de <strong>données</strong> identifiées, une sélection et un prétraitement s’imposent assez<br />

systématiquement. La « préparation » <strong>des</strong> <strong>données</strong> ressort comme une étape capitale permettant<br />

d’extraire <strong>des</strong> <strong>données</strong> exploitables.<br />

A noter qu’un certain nombre de freins techniques peuvent rendre plus long et difficile le<br />

prétraitement <strong>des</strong> <strong>données</strong>, comme l’obtention de <strong>données</strong> non informatisées ou reçues sous<br />

format papier (ex. <strong>données</strong> du registre bas-rhinois <strong>des</strong> cardiopathies ischémiques, <strong>données</strong> <strong>des</strong><br />

exploitants sur les émissions industrielles, certaines <strong>données</strong> de trafic routier) ou l’obtention de<br />

fichiers lourds (<strong>données</strong> de l’Assurance Maladie, <strong>données</strong> individuelles de l’Insee).<br />

Ce prétraitement peut-être effectué directement par le gestionnaire d’une base de <strong>données</strong>,<br />

véritable prestataire de service, ou par l’équipe scientifique.<br />

Les gestionnaires de bases de <strong>données</strong> définissent en effet avec les équipes scientifiques les<br />

requêtes pertinentes pour extraire les <strong>données</strong>. Ils apportent plus particulièrement leur expérience<br />

dans la sélection <strong>des</strong> <strong>données</strong> d’intérêt nécessaires à la construction <strong>des</strong> variables de l’étude.<br />

Dans certains cas, ils peuvent également réaliser un travail d’homogénéisation, de consolidation et<br />

de validation <strong>des</strong> <strong>données</strong>. Concernant les <strong>données</strong> de santé à caractère personnel et comme<br />

évoqué auparavant, les fournisseurs de <strong>données</strong> sont plus fortement impliqués dans les projets de<br />

recherche.<br />

Sélection <strong>des</strong> <strong>données</strong> d’intérêt<br />

La phase de sélection <strong>des</strong> cas (pathologies) et d’anonymisation est toujours effectuée par et au<br />

sein de l’organisme hébergeur <strong>des</strong> <strong>données</strong> qui peut-être un département d’information médicale<br />

d’un établissement hospitalier (étude n°1), un regi stre de morbidité (étude n°2, n°4, n°6.1), le<br />

CépiDC… Au-delà de ces situations un peu particulières, de manière plus générale, le<br />

gestionnaire aide les équipes scientifiques à sélectionner les <strong>données</strong> d’intérêt.<br />

Quelques exemples sur la sélection <strong>des</strong> <strong>données</strong> d’intérêt effectuée par les gestionnaires de<br />

bases de <strong>données</strong> sont présentés ci-<strong>des</strong>sous :<br />

les associations agréées de surveillance de la qualité de l’air (Aasqa) ont<br />

présélectionné les stations de mesures utiles pour l’étude à partir de critères définis par<br />

l’Ademe (étude n°1) ;<br />

les centres d’étu<strong>des</strong> techniques de l’équipement (CETE) et les Aasqa ont identifié les<br />

axes routiers présentant un trafic routier supérieur à 10 000 véhicules/jour (étude<br />

n°17) ;<br />

le réseau Sentinelles et le groupe régional d’observation de la grippe d’Île-de-France 32<br />

ont définit les pério<strong>des</strong> d’épidémies pour la grippe en fonction du nombre de cas<br />

recensés (étude n°1) ;<br />

le RNSA a sélectionné les taxons les plus représentatifs en termes d’abondance et<br />

d’allergénicité de la zone d’étude (étude n°1) ;<br />

la CNAMTS s’emploie à identifier les consommations de soins et les hospitalisations<br />

relatives à chacun <strong>des</strong> participants de l’étude (étude n°3) ;<br />

32 Le territoire national est couvert par un réseau de surveillance de la grippe, le GROG (groupes régionaux<br />

d’observation de la grippe). Plus d’information sur le site : http://www.grog.org/<br />

Juin 20<strong>08</strong> page 43


Afsset • RAPPORT « Action 35 du PNSE : enquête sur le croisement de <strong>données</strong> »<br />

les registres généraux de cancer ont effectué un travail de recodage à partir de la<br />

version 2 oncologie de la classification internationale <strong>des</strong> maladies (CIM-O2), si la base<br />

était codée à partir de la version 3 (étude n°2).<br />

En revanche dans l’étude n°1, où le nombre journali er d’hospitalisation pour causes respiratoires<br />

ou cardio-vasculaires est utilisé, c’est l’équipe scientifique seule qui a effectué ses sélections.<br />

Nettoyage de la base et complétion <strong>des</strong> <strong>données</strong> manquantes<br />

Une étape de nettoyage <strong>des</strong> <strong>données</strong> consistant à corriger <strong>des</strong> <strong>données</strong> erronées, éliminer les<br />

<strong>données</strong> dites « bruyantes », ou remplir les <strong>données</strong> manquantes identifiées est généralement<br />

pratiquée.<br />

Dans l’étude n°10 par exemple, dont l’objectif est de déterminer si les ventes de médicament<br />

pourraient être à la base d'un outil d'alerte précoce de type syndromique, voire se substituer à la<br />

surveillance syndromique de type Sentinelles, les <strong>données</strong> aberrantes de ventes de médicaments<br />

sont traitées. Les <strong>données</strong> de la 1 ère semaine de janvier de chaque année (2001-2004) étaient<br />

systématiquement désignées comme aberrantes par l’équipe scientifique. Elles sont estimées à<br />

partir de la semaine précédente et de la semaine suivante.<br />

Le recours à <strong>des</strong> valeurs de la littérature, ou à <strong>des</strong> estimations obtenues à partir de métho<strong>des</strong><br />

mathématiques ou statistiques (interpolation, extrapolation, régression linéaire), est effectué afin<br />

de compléter les valeurs manquantes.<br />

Quelques exemples<br />

<br />

<br />

<br />

<br />

L’indisponibilité de <strong>données</strong> sur le trafic routier pour certains tronçons de route (ex. nombre de<br />

véhicules par jour, trafic moyen journalier annuel, …) implique le recours à <strong>des</strong> valeurs de la<br />

littérature ou à <strong>des</strong> estimations :<br />

dans l’étude n°6.2, les <strong>données</strong> manquantes pour cer tains tronçons de la ville de<br />

Besançon sont obtenues à partir de valeurs de la littérature (Guide <strong>des</strong> bonnes<br />

pratiques pour la cartographie stratégique du bruit, WG-AEN, 20<strong>06</strong> ; Classement<br />

sonore <strong>des</strong> infrastructures de transports terrestres, CERTU 1998 ; Comment réaliser<br />

les cartes de bruit stratégiques en agglomération, CERTU 20<strong>06</strong>) ;<br />

dans l’étude n°13, les <strong>données</strong> manquantes sur un tr onçon sont estimées à partir <strong>des</strong><br />

<strong>données</strong> de l’année précédente pour le même tronçon en appliquant un taux d’évolution<br />

du trafic ou à partir <strong>des</strong> <strong>données</strong> d’un tronçon voisin ayant les mêmes caractéristiques.<br />

Dans l’étude n°1, les valeurs journalières moyennes <strong>des</strong> niveaux de pollution atmosphérique<br />

sont prises en compte si 75 % <strong>des</strong> valeurs horaires sont présentes dans la base de <strong>données</strong><br />

de l’Aasqa. Dans le cas contraire, la valeur journalière est considérée comme « manquante »<br />

et est remplacée par la méthode <strong>des</strong> moyennes saisonnières ou par régression en fonction de<br />

la durée pendant laquelle <strong>des</strong> valeurs sont manquantes.<br />

Dans l’étude n°14, les valeurs manquantes de concen tration pour chaque polluant ont été<br />

estimées grâce à une régression linéaire multiple.<br />

Dans l’étude n°16 où l’enjeu est d’estimer une expo sition individuelle moyenne aux<br />

trihalométhanes (THM) pour chaque trimestre de grossesse de femmes vivant dans trois<br />

départements bretons (Ile et Vilaine, Côtes d’Armor et Finistère), les mesures effectuées par<br />

les Ddass et dans le cas précis de la ville de Rennes par les services techniques sont utilisées.<br />

Pour les adresses hors de Rennes, pour lesquelles il n’existe pas de mesures, une valeur<br />

trimestrielle moyenne d’exposition est estimée à partir d’une extrapolation <strong>des</strong> variations<br />

saisonnières constatées pour la ville de Rennes.<br />

Juin 20<strong>08</strong> page 44


Afsset • RAPPORT « Action 35 du PNSE : enquête sur le croisement de <strong>données</strong> »<br />

Géocodage <strong>des</strong> <strong>données</strong><br />

Le géocodage ou géoréférencement consiste à attribuer à un point de l’espace ses coor<strong>données</strong> X<br />

et Y afin d’en définir sa position géographique. L’une <strong>des</strong> applications possible consiste à<br />

rapprocher géographiquement <strong>des</strong> variables entre elles.<br />

Les étu<strong>des</strong> écologiques, majoritaires dans l’enquête, visent à détecter ou à identifier <strong>des</strong> variations<br />

de l’occurrence d'une maladie dans le temps ou dans l'espace, et à relier ces variations à <strong>des</strong><br />

facteurs de risque (environnementaux le plus souvent), d’où l’intérêt d’obtenir <strong>des</strong> <strong>données</strong><br />

géocodées.<br />

On observe un nombre plus important de <strong>données</strong> déjà géoréférencées dans les sources de<br />

<strong>données</strong> environnementales comme les <strong>données</strong> de surveillance de la qualité de l’air, que dans<br />

les <strong>données</strong> sanitaires.<br />

En effet, l’utilisation de <strong>données</strong> sanitaires à caractère personnel nécessite très souvent un travail<br />

de consolidation <strong>des</strong> adresses <strong>des</strong> individus enregistrés dans la base par le gestionnaire. Un<br />

travail de géocodage est effectué par la suite par le gestionnaire, par l’équipe scientifique, ou un<br />

prestataire de service à partir d’un fichier délivré par le gestionnaire qui ne comporte aucune<br />

donnée nominative. Dans l’étude n°2, les registres généraux du cancer ont normalisé les adresses<br />

de résidence <strong>des</strong> patients. Ce travail a permis de faciliter le géocodage à l’IRIS 33 <strong>des</strong> patients ;<br />

géocodage réalisé par un prestataire de service. En échange de leur participation à l’étude n°2, les<br />

registres ont pu garder les co<strong>des</strong> IRIS de chaque patient en vue de futures exploitations. Dans<br />

l’étude n°11, la direction départementale <strong>des</strong> servi ces vétérinaires de Corse du Sud appuie<br />

l’équipe scientifique pour localiser sur une carte papier les élevages d’ovins à l’étude et permettre<br />

par la suite de les localiser plus rigoureusement par GPS.<br />

Le cas spécifique <strong>des</strong> étu<strong>des</strong> contextuelles où l’objectif est d’appréhender au mieux les expositions<br />

environnementales auxquelles l’individu peut être confronté dans son environnement immédiat de<br />

vie est à souligner. Dans l’étude n°3, les individu s participant à l’étude ont été géolocalisés, <strong>des</strong><br />

zones géographiques centrées sur le lieu de résidence de chaque individu ont été définies en<br />

tenant compte du réseau de rues environnant, et <strong>des</strong> variables environnementales ont été<br />

construites pour chaque zone d’étude liée à chaque individu. La construction de ces variables<br />

environnementales « égo-centrées » implique alors d’avoir un ensemble de <strong>données</strong> géocodées<br />

en (x, y) et de les agréger à l’échelle de ces zones. Dans l’étude n°3, l’équipe scientifique utilise<br />

les <strong>données</strong> géocodées de l’Insee (<strong>données</strong> de recensement, bases de revenu de la Direction<br />

Générale <strong>des</strong> Impôts, etc.) et les agrège à l’échelle géographique de ces zones.<br />

A noter, que le registre national <strong>des</strong> leucémies de l’enfant et le registre dijonnais <strong>des</strong> accidents<br />

vasculaires cérébraux effectuaient au moment de l’enquête un travail de géocodage sur<br />

l’ensemble <strong>des</strong> <strong>données</strong> de leurs bases.<br />

33 Le géocodage consiste généralement à attribuer à une adresse ses coor<strong>données</strong> X et Y. On peut<br />

également en déduire <strong>des</strong> informations d’appartenance géographique, comme le code IRIS dans lequel est<br />

située l’adresse. On parlera alors de géocodage à l’IRIS.<br />

Juin 20<strong>08</strong> page 45


Afsset • RAPPORT « Action 35 du PNSE : enquête sur le croisement de <strong>données</strong> »<br />

A retenir<br />

Le fournisseur de <strong>données</strong> est bien souvent un véritable prestataire de service.<br />

La validation <strong>des</strong> <strong>données</strong>, la complétion <strong>des</strong> <strong>données</strong> manquantes et le géocodage sont autant<br />

de procédés de prétraitements qui visent à obtenir <strong>des</strong> <strong>données</strong> fiables et exploitables pour<br />

l’étude et qui pourraient tout aussi bien profiter à la base de <strong>données</strong> d’origine.<br />

La généralisation <strong>des</strong> pratiques de géocodage à l’ensemble <strong>des</strong> bases de <strong>données</strong>,<br />

principalement sanitaires, apparaît comme indispensable à une époque où les outils<br />

géographiques sont de plus en plus utilisés.<br />

3.2.4 Construction de <strong>données</strong> et modélisation<br />

Lorsque les sources de <strong>données</strong> disponibles ne conviennent pas ou sont tout simplement<br />

absentes, une construction de <strong>données</strong> ad hoc est alors nécessaire, par l’intermédiaire de<br />

jugements d’experts, de modélisation ou de questionnaires. Dans ce dernier cas, on revient aux<br />

pratiques plus classiques de l’épidémiologie où le questionnaire est le principal instrument de<br />

recueil de <strong>données</strong>. In fine, <strong>des</strong> <strong>données</strong> issues de bases existantes sont croisées avec ces<br />

<strong>données</strong> créées.<br />

Jugements d’experts<br />

Les étu<strong>des</strong> n°2 et n°9 ont un objectif analogue qui est d’évaluer un risque sanitaire lié à une<br />

exposition rétrospective aux rejets atmosphériques <strong>des</strong> usines d’incinérations <strong>des</strong> ordures<br />

ménagères (UIOM). Les <strong>données</strong> d’émissions <strong>des</strong> UIOM ne sont pas ou peu disponibles avant<br />

2002, année de mise en place de la réglementation relative à la déclaration annuelle <strong>des</strong><br />

émissions industrielles. Une estimation <strong>des</strong> niveaux d’émissions pour chaque groupe homogène<br />

d’incinérateurs est construite par jugements d’experts (selon une variante de la méthode DELPHI)<br />

en fonction de paramètres techniques (capacité nominale de l’usine, tonnage annuel incinéré,<br />

mode de traitement <strong>des</strong> fumées, …).<br />

Toujours dans l’étude n°9, un groupe de travail com posé de géologues a attribué une classe de<br />

rugosité (variable à intégrer à l’outil de modélisation de dispersion atmosphérique) pour chaque<br />

point de la maille correspondant à la zone d’emprise d’un incinérateur, en fonction de<br />

l’environnement de l’incinérateur décrit par les exploitants (incinérateur en bordure d’agglomération<br />

ou en plein champ).<br />

Questionnaires<br />

Dans l’étude n°6.2, <strong>des</strong> caractéristiques du logemen t et d’occupation <strong>des</strong> individus (caractérisation<br />

acoustique du logement ; horaire de présence, fonctionnement d’appareils bruyants, autres<br />

évènements sonores) sont recueillies par questionnaires pour moduler le niveau d’exposition<br />

sonore pour chaque individu à partir d’un logiciel de cartographie acoustique.<br />

L’étude n°18 a pour objectif d’estimer l’incidence <strong>des</strong> cancers et de la mortalité en milieu agricole,<br />

en explorant la part <strong>des</strong> facteurs liés aux activités professionnelles, avec un focus sur l’exposition<br />

professionnelle aux pestici<strong>des</strong>. Des <strong>données</strong> sur la fréquence d’utilisation professionnelle de<br />

pestici<strong>des</strong> en milieu agricole sont recherchées. Le recensement général agricole ne comporte<br />

aucune question sur les pestici<strong>des</strong>. Les seules <strong>données</strong> disponibles proviennent d’enquêtes<br />

commerciales réalisées par <strong>des</strong> instituts de sondage pour le compte <strong>des</strong> industriels. Le choix a<br />

donc été fait de recourir à <strong>des</strong> questionnaires individuels dans le cadre d’une cohorte<br />

d’agriculteurs. La reconstruction de l’exposition aux pestici<strong>des</strong> <strong>des</strong> agriculteurs sur l’ensemble de<br />

Juin 20<strong>08</strong> page 46


Afsset • RAPPORT « Action 35 du PNSE : enquête sur le croisement de <strong>données</strong> »<br />

leur vie professionnelle, a nécessité d’identifier, de façon rétrospective, les spécialités<br />

commerciales susceptibles d’avoir été utilisées. Le recensement général agricole a servi à établir<br />

un historique de l’évolution <strong>des</strong> cultures depuis les années 50. Un groupe d’experts régionaux a<br />

identifié, à partir de cet historique, une liste de 22 familles chimiques de pestici<strong>des</strong> (matières<br />

actives et spécialités commerciales) susceptibles d’avoir été utilisées. Les spécialités<br />

commerciales ainsi identifiées ont été proposées dans un questionnaire.<br />

L’étude n°9, étude cas-témoin, vise à évaluer le ri sque de malformations congénitales liées à la<br />

proximité d’incinérateurs d’ordures ménagères, en Rhône-Alpes. Des informations ont été<br />

acquises par questionnaire et utilisées comme facteurs individuels de confusion (informations sur<br />

les antécédents familiaux, les habitu<strong>des</strong> de vie - y compris alimentaires, les problèmes de santé,<br />

les complications de grossesse éventuelles, les caractéristiques du domicile et du lieu de travail au<br />

moment de la grossesse).<br />

Dans l’étude n°3, <strong>des</strong> informations sur la perceptio n de chaque individu participant à l’étude sur<br />

son environnement immédiat de vie sont recueillies par questionnaire (ex. niveau de détérioration<br />

de l’environnement physique et social, …). Une analyse multiniveau permet alors d’examiner la<br />

cohérence <strong>des</strong> réponses de chaque individu aux différentes questions portant sur une même<br />

dimension environnementale puis la concordance entre elles <strong>des</strong> réponses <strong>des</strong> différents individus<br />

d’un même quartier. Cette analyse multiniveau basée sur une approche « écométrique » permet<br />

ainsi la construction de variables environnementales objectives.<br />

Outils de modélisation<br />

Des outils de modélisation sont employés dans 8 étu<strong>des</strong> sur 21 et notamment dans l’élaboration<br />

d’indice d’exposition à un facteur de risque donné. Comme constaté dans les exemples suivants,<br />

la modélisation permet la construction de <strong>données</strong> inexistantes à partir d’un grand nombre d’autres<br />

sources de <strong>données</strong>.<br />

Un outil de modélisation est utilisé dans les exemples d’étu<strong>des</strong> ci-<strong>des</strong>sous.<br />

<br />

<br />

Un niveau sonore d’exposition au domicile et à l’école d’une population d’élèves en milieu<br />

urbain dans l’étude n°6.2 est obtenue à partir d’un logiciel de cartographie acoustique (logiciel<br />

MITHRA-SIG ; développé conjointement par le CSTB et l’IGN) qui intègre pour cette étude <strong>des</strong><br />

<strong>données</strong> de topographies, de bâtis, de voiries, de trafics routiers et ferroviaires.<br />

Des niveaux d’exposition liés aux panaches d’émission <strong>des</strong> UIOM sont estimés dans les<br />

étu<strong>des</strong> :<br />

n°6.1 où une cartographie représentant quatre zones d’exposition aux dioxines a été<br />

fournie par la mairie de Besançon. Cette cartographie a été réalisée à partir d’un<br />

modèle gaussien de dispersion atmosphérique implémenté par le logiciel APC3,<br />

développé par Aria Technologies et alimenté par <strong>des</strong> <strong>données</strong> météorologiques,<br />

topographiques, d’émission et sur les caractéristiques techniques <strong>des</strong> UIOM.<br />

n°2 et n°9 où un modèle de dispersion <strong>des</strong> émissions industrielles de type gaussien<br />

implémenté par le logiciel ADMS3 est utilisé. Dans l’étude n°2, une grille de points de<br />

valeurs de concentration de dioxine en flux aérien et en dépôt dans l’espace est<br />

obtenue avec un maillage de 200 m, jusqu’à une quinzaine de km environ autour de la<br />

source. Dans l’étude n°9, une valeur horaire de con centration de dioxine et de métaux<br />

lourds en flux aérien et en dépôt est obtenue pour chaque adresse de résidence et de<br />

travail <strong>des</strong> cas et témoins de l’étude située dans un rayon de 10 km autour d’un<br />

incinérateur.<br />

Ce modèle est alimenté par <strong>des</strong> paramètres d’émission (hauteur, diamètres <strong>des</strong><br />

cheminées, vitesse et température d’éjection,…), <strong>des</strong> <strong>données</strong> d’émission mesurées ou<br />

estimées, <strong>des</strong> <strong>données</strong> météorologiques, topographiques et de rugosité.<br />

Juin 20<strong>08</strong> page 47


Afsset • RAPPORT « Action 35 du PNSE : enquête sur le croisement de <strong>données</strong> »<br />

Un indice de pollution à l’ozone pour chaque maille de 1 km x 1 km est calculé dans l’étude n°8<br />

à partir de l’exploitation conjointe <strong>des</strong> <strong>données</strong> observées de la qualité de l’air recueillies au<br />

sein de la base de <strong>données</strong> BASTER gérée par l'Ademe, et <strong>des</strong> sorties du modèle mécaniste<br />

déterministe CHIMERE dit de chimie transport. Cet outil numérique simule les évolutions<br />

spatiales et temporelles <strong>des</strong> concentrations <strong>des</strong> polluants sur la base d’un système d’équations<br />

complexes qui traduit en terme mathématique l’ensemble <strong>des</strong> processus responsables de la<br />

production et de la <strong>des</strong>truction <strong>des</strong> polluants dans l’atmosphère.<br />

<br />

<br />

<br />

Des niveaux d’exposition par IRIS liés à la pollution atmosphérique sont estimés dans l’étude<br />

n°7. Des concentrations horaires pour 5 indicateurs de pollution atmosphérique (NO 2 , SO 2 ,<br />

PM 10 , CO et O 3 ) sont obtenues par modélisation (logiciel ADMS Urban). Cet outil permet la<br />

prise en compte simultanée de nombreux effluents atmosphériques pouvant provenir d’une<br />

multitude de sources ; ici, les sources industrielles (EPER), les routes et le trafic associé, … et<br />

l’utilisation directe d’un système d’information géographique (SIG).<br />

La part <strong>des</strong> concentrations en polluants atmosphériques liée au trafic routier est modélisée<br />

dans l’étude n°13 pour chaque maille de 10 km x 10 km, à partir <strong>des</strong> émissions liées au trafic<br />

estimées par le CETE, <strong>des</strong> <strong>données</strong> sur les autres sources d'émission (EMEP, CITEPA). Cette<br />

modélisation a été effectuée par le Laboratoire d'Aérologie de Toulouse.<br />

Dans l’étude n°11 où l’objectif est d’améliorer la connaissance <strong>des</strong> conditions dans lesquelles<br />

se développe l’insecte vecteur du genre Culicoï<strong>des</strong> (petite mouche hématophage) responsable<br />

de la transmission de la fièvre catarrhale du mouton (« Blue Tongue »). La source de <strong>données</strong><br />

d’occupation du sol existante et disponible (CORINE Land Cover par exemple) ne présente<br />

pas une résolution suffisante pour l’étude (100 m x 100 m) et ne comprend pas suffisamment<br />

de classes d’occupation du sol. Un modèle à plus haute résolution spatiale (10 m x 10 m)<br />

permettant d’affiner l’analyse <strong>des</strong> conditions favorables à la présence de l’insecte vecteur a<br />

donc été développé à partir d’images du satellite Spot. Un logiciel de traitement d'image de<br />

télédétection 34 (eCognitionTM 11 software) a été utilisé pour segmenter l’image Spot en<br />

régions constituées de pixels. Ces régions sont ensuite classées en fonction non seulement de<br />

profils radiométriques (radiomètres embarqués par Spot), mais aussi de critères de structure<br />

de l’image (forme, taille, relation <strong>des</strong> objets entre eux). Une cartographie de l’occupation du sol<br />

dans la zone d’étude a ainsi été obtenue.<br />

Dans cette démarche de modélisation, un travail de validation <strong>des</strong> sorties de modèles est parfois<br />

effectué. Pour exemple dans l’étude n°6.1, une part ie <strong>des</strong> résultats du modèle de diffusion a été<br />

validée par <strong>des</strong> mesures sur le terrain. Dans l’étude n°6.2 et afin de déterminer si le modèle <strong>des</strong><br />

cartes de bruit reflète bien l‘exposition au bruit <strong>des</strong> individus de l’étude, les niveaux sonores<br />

modélisés ont été confrontés à <strong>des</strong> niveaux sonores mesurés sur un sous-échantillon de l’étude<br />

(campagne de mesures en continu sur une semaine en 3 points pour 50 foyers d’habitation :<br />

extérieur en façade, chambre de l’enfant, pièce commune).<br />

A retenir<br />

Ces exemples montrent combien il est difficile d’obtenir <strong>des</strong> <strong>données</strong> d’intérêt lorsqu’aucune<br />

source identifiée ne les enregistre en routine.<br />

34 La télédétection est un ensemble <strong>des</strong> connaissances et techniques utilisées pour déterminer, au moyen<br />

de mesures effectuées à distance, les caractéristiques physiques et biologiques <strong>des</strong> phénomènes. Source :<br />

Maison de la Télédétection en Languedoc-Roussillon. Glossaire <strong>des</strong> termes scientifiques du site. En ligne :<br />

http://www.teledetection.fr/component/option,com_glossary/Itemid,286/.<br />

Juin 20<strong>08</strong> page 48


Afsset • RAPPORT « Action 35 du PNSE : enquête sur le croisement de <strong>données</strong> »<br />

3.2.5 Transformation <strong>des</strong> <strong>données</strong><br />

Presque toutes les étu<strong>des</strong> rencontrées visent à confronter statistiquement une <strong>des</strong>cription de l’état<br />

sanitaire d’une population à différents indicateurs environnementaux et/ou démographiques. Des<br />

transformations, possibles à toutes les étapes précitées, sont effectuées pour construire les<br />

variables à introduire dans le modèle statistique et permettre véritablement le croisement de<br />

<strong>données</strong>. Elles consistent principalement à homogénéiser, agréger ou désagréger les <strong>données</strong><br />

afin d’obtenir <strong>des</strong> valeurs assignées à l’unité spatio-temporelle de l’étude.<br />

Pour exemple dans l’étude n°6.2 où l’équipe scienti fique recueille un ensemble de <strong>données</strong> à<br />

intégrer au logiciel de cartographie acoustique : l’unité <strong>des</strong> <strong>données</strong> brutes liées au trafic routier<br />

diffère suivant l’année (Trafic moyen journalier annuel pour 1998 et moyenne jours ouvrables pour<br />

la période 2000-2005) nécessitant un travail d’homogénéisation pour n’obtenir qu’une seule unité<br />

d’expression du trafic routier (Trafic moyen journalier annuel). Les niveaux sonores sont<br />

recherchés pour trois pério<strong>des</strong> de la journée impliquant deux nouvelles étapes de transformation<br />

<strong>des</strong> <strong>données</strong> : une conversion en une Moyenne Horaire Tous Véhicules (MHTV) pour deux<br />

pério<strong>des</strong> de la journée (jour : 6 h/22 h / nuit : 22 h-6 h) et le calcul d’une moyenne horaire tous<br />

véhicules pour les trois pério<strong>des</strong> de la journée (jour, soir, nuit).<br />

Autre exemple dans l’étude n°1, où les <strong>données</strong> hora ires recueillies auprès <strong>des</strong> Aasqa pour quatre<br />

polluants atmosphériques (NO 2 , O 3 , PM 2.5 , PM 10 ) sont transformées en moyenne journalière. Cette<br />

transformation permet par la suite de construire un indicateur global journalier par station de<br />

mesure pour chaque polluant atmosphérique (moyenne arithmétique pour le dioxyde d’azote et les<br />

particules en suspension et maximum <strong>des</strong> moyennes sur 8 h glissantes pour l’ozone). L’indicateur<br />

global journalier de chaque zone d’étude introduit dans le modèle statistique est construit en<br />

agrégant les <strong>données</strong> <strong>des</strong> stations de mesure comprises dans cette même zone d’étude.<br />

L’agrégation peut aussi être réalisée sur <strong>des</strong> critères démographiques (par classe d’âge, cf. étude<br />

n°7).<br />

A noter que lorsque l’analyse statistique est effectuée à partir de <strong>données</strong> individuelles et qui plus<br />

est si elles sont recueillies par questionnaire, ces étapes de transformation ne sont pas ou peu<br />

nécessaires.<br />

3.2.6 SIG – véritable outil de croisement de <strong>données</strong> dans les étu<strong>des</strong><br />

épidémiologiques environnementales<br />

Les approches de type « spatial » (exemple <strong>des</strong> étu<strong>des</strong> écologiques très souvent rencontrées<br />

dans l’enquête) consistent à privilégier l’étude de la manifestation <strong>des</strong> phénomènes dans l’espace,<br />

pour laquelle les systèmes d’information géographique (SIG) sont d’une utilité certaine.<br />

Un SIG permet principalement la superposition de plusieurs couches de <strong>données</strong> géoréférencées.<br />

A titre d’exemple dans l’étude n°8, c’est une couch e de <strong>données</strong> comprenant la répartition d’un<br />

indicateur sanitaire par canton qui a été superposée à une couche de <strong>données</strong> représentant un<br />

nombre de jours de dépassement du seuil de 120 µg/m 3 pour la pollution à l'ozone et pour un<br />

maillage de 1 km.<br />

Outre la superposition de couches de <strong>données</strong> spatialisées, le SIG peut être un outil indispensable<br />

pour transformer les <strong>données</strong> en variable d’analyse permettant ainsi la faisabilité du croisement de<br />

<strong>données</strong> correspondant à <strong>des</strong> échelles ou <strong>des</strong> unités spatiales variées.<br />

Pour exemple dans l’étude n°2, l’outil SIG a permis la construction d’un indice d’exposition aux<br />

rejets <strong>des</strong> incinérateurs à partir de panaches modélisés sur une grille de points de 200 m autour de<br />

chaque incinérateur. Deux difficultés ont été résolues par l’utilisation de l’outil SIG :<br />

Juin 20<strong>08</strong> page 49


Afsset • RAPPORT « Action 35 du PNSE : enquête sur le croisement de <strong>données</strong> »<br />

le recouvrement spatial de plusieurs panaches d’incinérateurs proches<br />

géographiquement. La somme <strong>des</strong> concentrations dans l’air et de dépôt de plusieurs<br />

panaches est calculée pour chaque point (coor<strong>données</strong> X et Y) <strong>des</strong> grilles concernées<br />

par une zone de recouvrement ;<br />

la détermination d’une valeur d’exposition au niveau de l’IRIS. Pour chaque IRIS, la<br />

médiane de toutes les valeurs de dépôts au sol a été calculée à partir de l’ensemble<br />

<strong>des</strong> valeurs <strong>des</strong> points de la modélisation retrouvés à l’intérieur <strong>des</strong> contours de l’IRIS.<br />

A partir de cette valeur d’exposition, l’indice d’exposition par IRIS a été calculé, soit la moyenne<br />

<strong>des</strong> dépôts surfaciques tenant compte de l’accumulation et de la décroissance de concentration du<br />

polluant à l’étude dans l’environnement.<br />

Dans le cas d’analyse contextuelle, l’utilisation de SIG peut s’avérer tout aussi profitable pour<br />

déterminer les zones géographiques de l’étude, centrées sur le lieu de résidence de chaque<br />

participant et ainsi construire <strong>des</strong> variables « contextuelles ». Dans l’étude n°3, <strong>des</strong> zones<br />

centrées sur le lieu de résidence de chaque individu intégré à l’étude sont déterminées en incluant<br />

tous les points situés à moins de 250, 500 ou 1 000 m du lieu de résidence, non pas à partir <strong>des</strong><br />

distances orthodromiques, mais en tenant compte du réseau de rues environnant. Par la suite, le<br />

calcul <strong>des</strong> variables socio-environnementales ou « contextuelles » peut être réalisé à l’échelle de<br />

ces zones « égo-centrées » (ex. surface <strong>des</strong> parcs et espaces verts ou densité de services par<br />

zone).<br />

Le choix de l’échelle spatiale de l’étude est pour les équipes rencontrées un élément important qui<br />

conditionne fortement la pertinence <strong>des</strong> résultats. Une résolution spatiale fine permet d’améliorer<br />

la sensibilité, en diminuant l’hétérogénéité intra-zone d’étude et en augmentant l’hétérogénéité<br />

inter-zone d’étude. En revanche, une résolution spatiale trop fine ne permet pas toujours de<br />

préserver la confidentialité (ex. <strong>données</strong> de santé à caractère personnel) et nécessite d’avoir <strong>des</strong><br />

effectifs de population suffisant pour acquérir une certaine stabilité statistique. Pour exemple, une<br />

analyse de la sensibilité est effectuée dans l’étude n°7 pour éliminer les IRIS comprenant trop peu<br />

de cas.<br />

Par opposition, l’approche de type « contextuelle » n’implique pas de se poser la question <strong>des</strong><br />

effectifs de population ou du nombre de cas pour les zones d’étude centrées sur le lieu de<br />

résidence de l’individu. Ces zones « locales » ont pour seul objectif d’appréhender au mieux les<br />

expositions environnementales auxquelles l’individu peut être confronté dans son environnement<br />

immédiat de vie.<br />

Des métho<strong>des</strong> géostatistiques (application <strong>des</strong> métho<strong>des</strong> probabilistes à l'étude de paramètres<br />

variables dans l’espace) intégrées à un SIG sont parfois employées. C’est le cas dans l’étude n°13<br />

afin d’obtenir <strong>des</strong> représentations spatiales (maille de 4 km x 4 km) de l'exposition de la population<br />

française liée au trafic routier. Les niveaux de pollution atmosphérique ne sont mesurés qu'en<br />

quelques centaines de stations réparties sur le territoire. Afin de prédire les niveaux de pollution<br />

dans chaque maille de 4 km x 4 km, une méthode d’interpolation géostatistique (krigeage) est<br />

employée (logiciel ISATIS développé par Geovariances). Elle exploite en particulier la variabilité<br />

spatiale du polluant (variogramme) et intègre les corrélations avec <strong>des</strong> variables explicatives<br />

exogènes connues à une meilleure résolution et permettant d'affiner la prédiction (cokrigeage).<br />

Juin 20<strong>08</strong> page 50


Afsset • RAPPORT « Action 35 du PNSE : enquête sur le croisement de <strong>données</strong> »<br />

A retenir<br />

Toutes les étapes énumérées (prétraitement de <strong>données</strong>, construction de <strong>données</strong> et<br />

transformation de <strong>données</strong> au travers d’un SIG pour les approches spatiales) font partie<br />

intégrante du croisement de <strong>données</strong> et aboutissent à la création d’une base de <strong>données</strong> dans<br />

laquelle sont présentes la variable à expliquer, ainsi que les variables explicatives et cofacteurs,<br />

dans les mêmes unités spatiales, temporelles, démographiques, etc. ou pour le moins<br />

comparable. A partir de cette base, le croisement au sens mathématique du terme - au travers<br />

de fonctions statistiques - devient possible.<br />

3.3 Attentes <strong>des</strong> équipes scientifiques : quelques exemples précis<br />

L’entretien avec chaque équipe scientifique comprenait un temps de discussion ouvert sur les<br />

évolutions souhaitées au regard <strong>des</strong> sources de <strong>données</strong> utilisées et leurs attentes en termes de<br />

disponibilité et de qualité <strong>des</strong> <strong>données</strong>. Ces attentes et évolutions souhaitées sont synthétisées ci<strong>des</strong>sous<br />

sans a priori.<br />

Dans l’ensemble, les équipes scientifiques réclament une meilleure identification <strong>des</strong> bases de<br />

<strong>données</strong> existantes. Faute d’information, elles doivent parfois se « rabattre » sur <strong>des</strong> sources de<br />

<strong>données</strong> moins précises. Pour les équipes, cette visibilité accrue se devrait d’être accompagnée<br />

du développement systématique de méta<strong>données</strong> ou dictionnaire de <strong>données</strong> pour chaque base<br />

de <strong>données</strong> (contributeurs, résolution spatio-temporelle, modalités d’accès,…).<br />

Le développement d’une « culture du partage » est largement plébiscité par les équipes afin de<br />

faciliter les échanges sur les méthodologies et les outils développées. Le modèle de la Maison de<br />

la Télédétection à Montpellier pourrait illustrer cette demande : elle regroupe <strong>des</strong> équipes de<br />

différents centres et instituts de recherche pour constituer un pôle de recherche appliqué en<br />

télédétection et en information géographique. De plus, certaines équipes émettent l’idée de prévoir<br />

un financement spécifique dans les appels à projet de recherche pour la capitalisation <strong>des</strong> travaux<br />

effectués et ainsi rendre pérennes et réutilisables les méthodologies et bases de <strong>données</strong> créées.<br />

Les équipes aspirent à une meilleure accessibilité <strong>des</strong> <strong>données</strong> en levant les barrières<br />

institutionnelles existantes ; pour exemple, la mise à disposition par les exploitants <strong>des</strong> <strong>données</strong><br />

d’émissions industrielles ou de qualité d’eau de consommation, <strong>données</strong> issues de mesures<br />

effectuées en routine et ne rentrant pas dans le cadre d’une déclaration réglementaire.<br />

Une synthèse <strong>des</strong> évolutions souhaitées et attentes <strong>des</strong> équipes scientifiques est présentée pour<br />

les trois types de bases de <strong>données</strong> que sont les bases sanitaires, environnementales et<br />

populationnelles.<br />

Bases de <strong>données</strong> sanitaires et médico-administratives<br />

Pour ces bases, les principales attentes sont de :<br />

développer <strong>des</strong> bases de <strong>données</strong> sur l’état de la santé de la population à différentes<br />

échelles (nationale à locale) ; pour exemple, la généralisation <strong>des</strong> registres du cancer<br />

sur tout le territoire national permettant la réalisation d’étu<strong>des</strong> épidémiologiques de<br />

grande ampleur ;<br />

utiliser pour l’épidémiologie les <strong>données</strong> anonymisées <strong>des</strong> logiciels de gestion<br />

électronique <strong>des</strong> dossiers patients <strong>des</strong> professionnels de santé voire <strong>des</strong> <strong>données</strong><br />

disponibles dans le futur Dossier Médical Personnel (DMP). Outre l’utilisation <strong>des</strong><br />

dossiers patients informatisés, un accès privilégié pour les équipes scientifiques au<br />

Juin 20<strong>08</strong> page 51


Afsset • RAPPORT « Action 35 du PNSE : enquête sur le croisement de <strong>données</strong> »<br />

Système national d’information inter-régimes de l’assurance-maladie (SNIIR-AM) est<br />

maintes fois souligné ;<br />

développer <strong>des</strong> référentiels, <strong>des</strong> métho<strong>des</strong> et outils communs entre les bases de<br />

<strong>données</strong> sanitaires pour les rendre interopérables : identifiants communs (par exemple,<br />

le Numéro d’Identification au Répertoire), échelle temporelle et spatiale à minima… ;<br />

augmenter la durée de conservation réglementaire <strong>des</strong> <strong>données</strong> (ex. <strong>données</strong> médicoadministratives<br />

aux niveaux du département d’information médicale d’un établissement<br />

de santé ou aux niveaux <strong>des</strong> caisses d’assurance maladie) ;<br />

généraliser le géocodage <strong>des</strong> <strong>données</strong> à l’échelle spatiale la plus fine possible (ex.<br />

introduire le niveau IRIS dans l’ensemble <strong>des</strong> registres,…) ;<br />

introduire l’histoire résidentielle voire professionnelle, <strong>des</strong> informations sur le niveau<br />

socioculturel, sur la consommation de tabac et d’alcool pour chaque patient dans les<br />

registres de morbidité.<br />

Bases de <strong>données</strong> de surveillance et de caractérisation de l’environnement<br />

Les équipes souhaitent :<br />

concernant les <strong>données</strong> sur la qualité de l’eau de consommation :<br />

o<br />

o<br />

avoir une cartographie lisible <strong>des</strong> réseaux de distribution d’eau pour faciliter le<br />

lien entre une adresse et un réseau de distribution ;<br />

augmenter la fréquence supérieure <strong>des</strong> mesures de contrôle sanitaire de la<br />

qualité de l’eau (aujourd’hui, entre 1 et 4 mesures par an en fonction <strong>des</strong><br />

réseaux) ;<br />

o mettre à disposition les mesures non réglementaires <strong>des</strong> exploitants ;<br />

concernant les <strong>données</strong> sur les émissions industrielles :<br />

o mettre à disposition les mesures non réglementaires <strong>des</strong> exploitants ;<br />

o obtenir <strong>des</strong> <strong>données</strong> pour toutes les pério<strong>des</strong> de fonctionnement (au<br />

démarrage par exemple) ;<br />

faciliter l'accès à <strong>des</strong> <strong>données</strong> fiables et homogènes sur le trafic routier ;<br />

pour les <strong>données</strong> spécifiques aux DOM-TOM :<br />

o<br />

avoir une bonne couverture satellitaire utile pour la vigilance et l'alerte <strong>des</strong><br />

maladies vectorielles ;<br />

o construire <strong>des</strong> <strong>données</strong> fiables sur la structure du bâti.<br />

Bases de <strong>données</strong> « populationnelles »<br />

Pour ces bases, les principales attentes sont :<br />

concernant les <strong>données</strong> de l’Insee :<br />

o<br />

accéder à <strong>des</strong> <strong>données</strong> de consommation d’alcool et de tabac, par classe<br />

d’âge, par année et par commune, voire par IRIS ;<br />

o accéder à <strong>des</strong> <strong>données</strong> infra-IRIS, voire à <strong>des</strong> <strong>données</strong> individuelles ;<br />

o<br />

construire et mettre à disposition <strong>des</strong> <strong>données</strong> individuelles sur la profession<br />

<strong>des</strong> personnes ou leurs revenus ;<br />

Juin 20<strong>08</strong> page 52


Afsset • RAPPORT « Action 35 du PNSE : enquête sur le croisement de <strong>données</strong> »<br />

o<br />

construire et mettre à disposition <strong>des</strong> <strong>données</strong> cantonales Insee interrecensement<br />

;<br />

obtenir <strong>des</strong> <strong>données</strong> sur les activités humaines et les flux associés (notamment<br />

touristiques), afin de disposer d'informations sur la diffusion de pathologies ;<br />

constituer <strong>des</strong> <strong>données</strong> sur l’utilisation professionnelle <strong>des</strong> pestici<strong>des</strong> en milieu agricole<br />

(par exemple, par le biais d’une question sur l’utilisation <strong>des</strong> pestici<strong>des</strong> dans le<br />

Recensement général agricole du Ministère chargé de l’agriculture).<br />

A retenir<br />

Une collaboration étroite entre les équipes scientifiques est souhaitée pour permettre un<br />

véritable échange sur les méthodologies et outils développés.<br />

Une meilleure identification <strong>des</strong> sources de <strong>données</strong> existantes, la création et la mise à<br />

disposition de dictionnaires de <strong>données</strong> pour toutes les bases de <strong>données</strong> sont <strong>des</strong> attentes<br />

largement partagées par les équipes scientifiques.<br />

Un accès aux <strong>données</strong> sanitaires, environnementales, populationnelles et/ou démographiques à<br />

l’échelle de l’IRIS est largement plébiscité.<br />

Juin 20<strong>08</strong> page 53


Afsset • RAPPORT « Action 35 du PNSE : enquête sur le croisement de <strong>données</strong> »<br />

Juin 20<strong>08</strong> page 54


Afsset • RAPPORT « Action 35 du PNSE : enquête sur le croisement de <strong>données</strong> »<br />

4 Conclusion<br />

Presque toutes les étu<strong>des</strong> couvertes par l’enquête visent à confronter statistiquement la<br />

<strong>des</strong>cription d’un état sanitaire d’une population à différents indicateurs environnementaux et/ou<br />

sociodémographiques.<br />

Pour répondre à l’objectif défini par son protocole d’étude, l’équipe scientifique met en place une<br />

base de <strong>données</strong> d’analyse dans laquelle sont présentes un grand nombre de variables (à<br />

expliquer, explicatives et confondantes) à croiser dans un modèle statistique ou par un système<br />

d’information géographique.<br />

Chaque étude est un cas particulier en soi même si <strong>des</strong> généralités liées aux différentes étapes<br />

préalables au croisement de <strong>données</strong> peuvent être relevées.<br />

La constitution de ces variables repose sur l’utilisation de <strong>données</strong> par nature très diverses, et par<br />

conséquent, sur le recours à <strong>des</strong> sources de <strong>données</strong> variées, qui ont été le plus souvent<br />

constituées avec un objectif (administratif, de gestion, réglementaire…) différent de celui de<br />

l’étude.<br />

Le temps passé par les équipes scientifiques à identifier les sources de <strong>données</strong> et à appréhender<br />

les <strong>données</strong> qu’elles contiennent est important. Au demeurant, l’absence d’une véritable « culture<br />

du partage » entre les équipes scientifiques et la carence de méta<strong>données</strong> dans les bases de<br />

<strong>données</strong> ne semblent pas faciliter leur travail. Les modalités d’accès aux <strong>données</strong>, fondées sur le<br />

relationnel et la négociation, peuvent occuper une place non négligeable également dans le<br />

calendrier d’une étude : barrières institutionnelles difficiles à lever, démarches administratives<br />

relativement longues, modalités d’accès aux <strong>données</strong> à caractère personnel parfois complexes, ...<br />

L’analyse <strong>des</strong> <strong>données</strong> disponibles et l’évaluation de leur adéquation aux objectifs scientifiques de<br />

l’étude peut conduire l’équipe à sélectionner <strong>des</strong> <strong>données</strong> même imparfaites mais qui ont<br />

l’avantage d’être disponibles ou d’effectuer quand cela est possible un retour aux sources de<br />

<strong>données</strong> brutes alimentant la source de <strong>données</strong> analysée. Cette dernière option induit<br />

généralement un accroissement du temps passé à extraire et traiter ces <strong>données</strong> ; accroissement<br />

proportionnel au nombre de sources de <strong>données</strong> brutes supplémentaires.<br />

Les sources de <strong>données</strong> étant identifiées et sélectionnées, un long travail de préparation <strong>des</strong><br />

<strong>données</strong> est alors nécessaire, préalablement au croisement dans un modèle statistique à<br />

proprement parlé. C’est la phase de constitution d’une base de <strong>données</strong> d’analyse devant<br />

répondre au mieux aux objectifs de l’étude.<br />

Des <strong>données</strong> individuelles ou finement localisées dans le temps et dans l’espace sont très souvent<br />

requises et pourtant inexistantes ou difficilement accessibles. Des compromis entre<br />

disponibilité/qualité <strong>des</strong> bases de <strong>données</strong> et faisabilité de l’étude au regard <strong>des</strong> objectifs sont<br />

alors nécessaires, impliquant très souvent la formulation de nouvelles hypothèses de travail.<br />

Un travail important d’optimisation ou de contournement <strong>des</strong> limites <strong>des</strong> <strong>données</strong> disponibles au<br />

regard <strong>des</strong> objectifs de l’étude doit alors être réalisé (construction de <strong>données</strong> ad hoc,<br />

harmonisation <strong>des</strong> <strong>données</strong>, estimations <strong>des</strong> <strong>données</strong> manquantes,…).<br />

Une fois ces opérations de prétraitement <strong>des</strong> bases de <strong>données</strong> et d’optimisation <strong>des</strong> <strong>données</strong><br />

effectuées, une étape de transformation <strong>des</strong> <strong>données</strong> est requise. Cette étape de transformation<br />

consiste principalement à homogénéiser, agréger ou désagréger les <strong>données</strong> afin d’obtenir <strong>des</strong><br />

valeurs assignées à l’unité spatio/temporelle voire populationnelle de l’étude. Les outils SIG,<br />

largement employés dans les approches de type spatiales, deviennent alors <strong>des</strong> outils privilégiés<br />

pour effectuer ces transformations. Mais, leur utilisation nécessite que les <strong>données</strong> soient<br />

Juin 20<strong>08</strong> page 55


Afsset • RAPPORT « Action 35 du PNSE : enquête sur le croisement de <strong>données</strong> »<br />

géoréférencées, information absente dans de nombreuses bases de <strong>données</strong> de santé<br />

principalement.<br />

L’amélioration de la performance et de l’intégration <strong>des</strong> systèmes d’information pour la pratique de<br />

la santé environnementale requière un véritable échange entre de nombreux organismes<br />

multidisciplinaires en mettant les acteurs de la santé-environnement au cœur <strong>des</strong> débats.<br />

Les enseignements de cette enquête et, de façon plus générale, les travaux réalisés dans le cadre<br />

de l’action 35 du PNSE nous permettent aujourd’hui d’avoir une vision plus claire quant à<br />

l’utilisation <strong>des</strong> systèmes d’information dans le champ de la santé-environnement et de proposer<br />

un certain nombre de recommandations :<br />

<br />

<br />

En terme d’organisation pour structurer et développer un véritable réseau <strong>des</strong><br />

systèmes d’information sur tout le territoire national par la mise en place de platesformes<br />

métiers permettant de définir <strong>des</strong> accords de partage <strong>des</strong> <strong>données</strong>, <strong>des</strong><br />

normes de méta<strong>données</strong> ou encore d’utilisation <strong>des</strong> <strong>données</strong>.<br />

En terme plus technique comme le développement de réseaux d’échanges basés<br />

sur le web, <strong>des</strong> pratiques de géocodage, de création de méta<strong>données</strong> et ainsi<br />

favoriser l’interopérabilité <strong>des</strong> bases de <strong>données</strong> entre elles, ou encore de disposer<br />

de <strong>données</strong> à l’échelle spatiale de l’IRIS.<br />

Juin 20<strong>08</strong> page 56


Afsset • RAPPORT « Action 35 du PNSE : enquête sur le croisement de <strong>données</strong> »<br />

5 Bibliographie<br />

Arnaud M., Emery X. (2000). Estimation et interpolation spatiale : métho<strong>des</strong> déterministes et<br />

métho<strong>des</strong> géostatiques. Paris : Hermes Science. 221 p.<br />

Bégaud B. (1998). Dictionnaire de pharmaco-épidémiologie, 3 ème<br />

Pharmacovigilance Éditions. 248 p.<br />

édition. Bordeaux : Arme-<br />

Bouyer J., Hémon D., Cordier S., Derriennic F., Stücker I., Stengel B., Clavel J. (1995).<br />

Épidémiologie : Principes et métho<strong>des</strong> quantitatives. Paris : Éditions Inserm. 498 p.<br />

Conseil national de l’information statistique (20<strong>06</strong>). Enquêtes statistiques et sources<br />

administratives : une complémentarité à exploiter. Chroniques du Cnis, n°5. 4 p.<br />

Conseil national de l’information statistique (2007). L’accès à l’information statistique à l’heure<br />

d’internet. Chroniques du Cnis, n°6. 4 p.<br />

Evrard A.S., Hémon D., Billon S., Laurier D., Jougla E., Tirmarche M., Clavel J. (20<strong>06</strong>). Childhood<br />

leukemia incidence and exposure to indoor radon, terrestrial and cosmic gamma radiation. Health<br />

Phys.; 90(6): 569-579.<br />

Floret N., Mauny F., Challier B., Arveux P., Cahn J.Y., Viel J.F. (2003). Dioxin emissions from a<br />

solid waste incinerator and risk of non-Hodgkin lymphoma. Epidemiology; 14(4): 392-398.<br />

Floret N., Viel J.F., Lucot E., Dudermel P.M., Cahn J.Y., Badot P.M., Mauny F. (20<strong>06</strong>). Dispersion<br />

modeling as a dioxin exposure indicator in the vicinity of a municipal solid waste incinerator: a<br />

validation study. Environ. Sci. Technol.; 40(7):2149-2155.<br />

Henrotin J.B., Besancenot J.P., Bejot Y., Giroud M. (2007). Short-term effects of ozone air pollution<br />

on ischaemic stroke occurrence: a case-crossover analysis from a 10-year population-based study<br />

in Dijon, France. Occup. Environ. Med ; 64(7) : 439-445.<br />

Institut de veille sanitaire (InVS). (mars 20<strong>08</strong>). Etude d’incidence <strong>des</strong> cancers à proximité <strong>des</strong><br />

usines d’incinération d’ordures ménagères - rapport d’étude. Saint-Maurice : Institut de veille<br />

sanitaire. 136 p.<br />

Institut de veille sanitaire (InVS). (novembre 20<strong>06</strong>). Programme de surveillance air et santé<br />

(Psas) : Relations à court terme entre les niveaux de pollution atmosphérique et les admissions à<br />

l’hôpital dans huit villes françaises. Saint-Maurice : Institut de veille sanitaire. 86 p.<br />

Maison de la Télédétection en Languedoc-Roussillon. Glossaire <strong>des</strong> termes scientifiques du site.<br />

En ligne : http://www.teledetection.fr/component/option,com_glossary/Itemid,286/ consulté le 22<br />

janvier 20<strong>08</strong>.<br />

Chaix B., Chauvin P. (2005). L’analyse contextuelle en épidémiologie sociale : avancées et<br />

perspectives. In : Document d’orientation scientifique, séminaire « santé-environnement et santétravail,<br />

nouvelles perspectives de recherches » (31 mars – 1 er avril 2005) – Part 3.2. Ministère<br />

délégué à la Recherche.<br />

Committee on the Institutional Means for Assessment of Risks to Public Health. Commission on<br />

Life Sciences, National Research Council (1983). Risk Assessment in the Federal Government:<br />

Managing the Process. Washington, DC. : National Academy Press. 191 p.<br />

Nerrière E. (2004). Distribution de l’exposition de la population urbaine à <strong>des</strong> polluants particulaires<br />

et gazeux génotoxiques et évaluation du risque de cancer – Etude Genotox’ER. Thèse de Docteur<br />

es Sciences. Université Henri Poincaré Nancy 1.<br />

Juin 20<strong>08</strong> page 57


Afsset • RAPPORT « Action 35 du PNSE : enquête sur le croisement de <strong>données</strong> »<br />

Projet européen INTERREG, programme ARMO (Air Rives Manches – Ozone) (mars 2007).<br />

Plaquette de présentation « Impacts de l’ozone sur la santé ».<br />

Tran A., Guis H., Biteau-Coroller F., Barragué B., Mathieu B., Setier-Rio M.L., Gerbier G., Roger<br />

F., Baldet T. (2007). Application de la télédétection à l'évaluation du risque d'émergence d'une<br />

maladie vectorielle - Introduction et diffusion dans le sud de la France de Culicoi<strong>des</strong> imicola,<br />

vecteur de la fièvre catarrhale du mouton. Télédétection 2007 ; 7(1-4):419-32<br />

Vergu E., Grais R.F., Sarter H., Fagot J.P., Lambert B., Valleron A.J., Flahault A. (20<strong>06</strong>).<br />

Medication Sales and Syndromic Surveillance, France. Emerg. Infect. Dis.; Vol. 12(3):416-21.<br />

Viel J.F., Giraudoux P., Abrial V., Bresson-Hadni S. (1999). Water vole (Arvicola Terrestris<br />

Scherman) density as risk factor for human alveolar Echinococcosis. Am. J. Trop. Med. Hyg,<br />

61(4) : 559-565.<br />

Viel J.F., Arveux P., Baverel J., Cahn J.Y. (2000). Soft–tissue sarcoma and non-Hodgkin’s<br />

lymphoma clusters around a municipal solid waste incinerator with high dioxin emission levels. Am.<br />

J. Epidemiol. ; 152(1): 13-19.<br />

Zeller M., Giroud M., Royer C., Benatru I., Besancenot J.P., Rochette L., Yves Cottin Y. (20<strong>06</strong>).<br />

Pollution de l’air et pathologie athérothrombotique cardiaque et cérébrale : Données<br />

épidémiologiques. Presse Med. ; 35(10 Pt 2) : 1517-22.<br />

Juin 20<strong>08</strong> page 58


Afsset • RAPPORT « Action 35 du PNSE : enquête sur le croisement de <strong>données</strong> »<br />

ANNEXES<br />

Juin 20<strong>08</strong> page 59


Afsset • RAPPORT « Action 35 du PNSE : enquête sur le croisement de <strong>données</strong> »<br />

Juin 20<strong>08</strong> page 60


Afsset • RAPPORT « Action 35 du PNSE : enquête sur le croisement de <strong>données</strong> »<br />

Annexe 1 : Grille d’entretien<br />

Les questions sont divisées en quatre catégories :<br />

1. Généralités sur l’étude : <strong>des</strong>cription générale de l’étude examinée.<br />

2. Données & Métho<strong>des</strong> : information sur les <strong>données</strong> brutes et les <strong>données</strong> croisées,<br />

<strong>des</strong>cription <strong>des</strong> métho<strong>des</strong> de structuration de <strong>données</strong> et transformations subies,…<br />

3. Atouts, Limites, Difficultés et évolutions souhaitées : présentation <strong>des</strong> limites, atouts et<br />

difficultés rencontrées en fonction <strong>des</strong> unités d’échelle, <strong>des</strong> modalités d’accès aux <strong>données</strong><br />

et <strong>des</strong> évolutions souhaitées pour les bases de <strong>données</strong> exploitées.<br />

4. Attentes générales vis-à-vis de l’enquête.<br />

1. Généralités sur l’étude<br />

1.1. Identification de l’étude et de ses objectifs<br />

1.2. L’étude a-t-elle donné lieu à une publication scientifique, précisions sur la publication (titre,<br />

auteurs, revue) ?<br />

1.3. Quel types de <strong>données</strong> ont été croisées au cours de cette étude (ex. <strong>données</strong><br />

environnement / santé, environnement / population, santé / santé, santé / population) ?<br />

1.4. Le croisement de <strong>données</strong> a-t-il été effectué pour démontrer une association suspectée ou<br />

dans un but exploratoire ?<br />

1.5. L’effet sanitaire étudié est-il en rapport avec une exposition à court terme ou à long terme ?<br />

1.6. L’exposition étudiée : est-elle ponctuelle ? Répétée ? Saisonnière ? Continue ?<br />

1.7. Quelle est l’unité de temps et l’unité de lieu du croisement de <strong>données</strong> (ex. jour, semaine,<br />

mois, année, période de 5 ans, etc. / IRIS, commune, code postal, code commune, département,<br />

région, ensemble du pays, métropole, DOM-TOM, …) ?<br />

1.8. Quelles ont été les principales approches statistiques utilisées (série chronologique,<br />

régression linéaire,…) pour le croisement de <strong>données</strong> ?<br />

1.9. Résultats et limites principales de l’étude ?<br />

1.10. Le croisement concerné a-t-il été effectué de façon ponctuelle, répétée ou continue ?<br />

Juin 20<strong>08</strong> page 61


Afsset • RAPPORT « Action 35 du PNSE : enquête sur le croisement de <strong>données</strong> »<br />

2. Données & Métho<strong>des</strong><br />

2. Données & Métho<strong>des</strong> Données croisées<br />

Données sanitaires<br />

Données<br />

environnementales et/ou<br />

d’exposition et/ou<br />

facteurs de risque<br />

Données<br />

populationnelles, socioéconomique<br />

ou<br />

géographiques<br />

nature <strong>des</strong> <strong>données</strong><br />

unité de temps<br />

échelle spatiale<br />

population cible<br />

géoréférencement<br />

Quelles sont toutes les variables utilisées ?<br />

- Quelles informations ont été utilisées<br />

pour estimer les expositions ou l'incidence<br />

/ la prévalence <strong>des</strong> effets sanitaires<br />

étudiée ?<br />

- Quelles sont les variables<br />

populationnelles utilisées ?<br />

Quelle est l’unité de temps <strong>des</strong> <strong>données</strong><br />

croisées ?<br />

Quelle est l'unité de lieu <strong>des</strong> <strong>données</strong><br />

croisées ?<br />

Quelle est la population cible ?<br />

Un géoréférencement <strong>des</strong> <strong>données</strong> a-t-il été<br />

effectué ? Si oui, à quel niveau géographique<br />

les <strong>données</strong> ont-elles été géoréférencées ?<br />

Données brutes<br />

bases de <strong>données</strong>, nature <strong>des</strong><br />

<strong>données</strong><br />

unité de temps<br />

échelle spatiale<br />

population cible<br />

géoréférencement<br />

Quelles transformations ont été<br />

nécessaires ?<br />

Un changement d'unité temporelle et/ou<br />

spatiale a-t-il été nécessaire ?<br />

Des <strong>données</strong> brutes ont-elles été agrégées<br />

ou désagrégées ?<br />

Des métho<strong>des</strong> de modélisation, ont-elles été<br />

utilisées ?<br />

Des outils d'information géographique ont-ils<br />

été utilisés (SIG) ?<br />

Y-a-t-il eu un besoin de traiter les <strong>données</strong><br />

manquantes ? Si oui, métho<strong>des</strong> ?<br />

Des hypothèses simplificatrices ont-elles dû<br />

être posées ? Lesquelles ?<br />

Transformation préalable au croisement de<br />

<strong>données</strong><br />

changement d’échelle<br />

agrégation ou désagrégation<br />

modélisation, calculs<br />

hypothèses simplificatrices<br />

Quelles sont les bases de <strong>données</strong><br />

concernées (apporter <strong>des</strong> précisions sur la<br />

base de <strong>données</strong>) ?<br />

Quelles <strong>données</strong> brutes ont été<br />

utilisées (nature, processus de<br />

production) ?<br />

Ces <strong>données</strong> brutes étaient-elles <strong>des</strong><br />

<strong>données</strong> individuelles ou agrégées (au<br />

sens statistique du terme) ?<br />

Quel était le pas de temps <strong>des</strong> <strong>données</strong><br />

brutes utilisées ?<br />

Quel était l’échelle spatiale <strong>des</strong> <strong>données</strong><br />

brutes utilisées ?<br />

La base de <strong>données</strong> comportait-elle <strong>des</strong><br />

<strong>données</strong> géoréférencées ?<br />

Les <strong>données</strong> brutes provenaient-elles d’un<br />

traitement préalable de <strong>données</strong> par le<br />

gestionnaire de la base de <strong>données</strong><br />

source ?<br />

Juin 20<strong>08</strong> page 62


Afsset • RAPPORT « Action 35 du PNSE : enquête sur le croisement de <strong>données</strong> »<br />

3. Atouts, Limites, Difficultés & Évolutions souhaitées<br />

3. Atouts / Limites / Difficultés &<br />

Évolutions souhaitées<br />

Atouts, Limites et difficultés<br />

Évolutions souhaitées<br />

Données sanitaires<br />

Données environnementales<br />

et/ou d’exposition et/ou facteurs<br />

de risque<br />

Données socio-économiques<br />

populationnelles ou<br />

géographiques<br />

Accès aux <strong>données</strong> et difficultés ? Si oui, lesquelles ?<br />

L'accès aux <strong>données</strong> a-t-il été fonction d'une restriction légale ?<br />

Contractualisation pour l'obtention <strong>des</strong> <strong>données</strong> ?<br />

Sous quel format les <strong>données</strong> vous ont été transmises (préciser les différents<br />

types de format utilisés) ?<br />

Compatibilité et transfert <strong>des</strong> <strong>données</strong> : <strong>des</strong> difficultés ont-elles été rencontrées<br />

quant à la compatibilité <strong>des</strong> systèmes informatiques, le langage d'échanges de<br />

<strong>données</strong>… ?<br />

Le développement d'un outil informatique spécifique a-t-il été nécessaire dans<br />

le cadre de l'étude ? Si oui, pour quels objectifs et caractéristiques ?<br />

Les bases de <strong>données</strong> brutes étaient-elles accompagnées d'un dictionnaire de<br />

<strong>données</strong> ou de méta<strong>données</strong> ?<br />

Des difficultés par rapport à la qualité <strong>des</strong> <strong>données</strong> brutes ont-elles affecté le<br />

croisement ?<br />

Les différentes unités (temporelle, géographique, populationnelle) ont-elles été<br />

satisfaisantes pour le croisement de <strong>données</strong> ? Lesquelles auraient été<br />

préférées ?<br />

Quelle est la représentativité <strong>des</strong> <strong>données</strong> brutes, sens de la donnée,<br />

interprétation (exhaustivité de l'échantillon, contrôle) ?<br />

Les objectifs de la base de <strong>données</strong> permettaient-ils de répondre aux objectifs<br />

du croisement de <strong>données</strong> ?<br />

Veuillez résumer les difficultés rencontrées lors du géoréférencement <strong>des</strong><br />

<strong>données</strong>.<br />

Une base de <strong>données</strong> a-t-elle été développé afin d’assurer la pérennité <strong>des</strong><br />

<strong>données</strong> ?<br />

L'étude a-t-elle été impactée par le temps passé pour le prétraitement <strong>des</strong><br />

<strong>données</strong> (<strong>données</strong> validées, lissées,..) ?<br />

Quelle a été le temps imparti à ce prétraitement sur la durée de l'étude ?<br />

Quelles sont les principales limites du croisement réalisé ?<br />

Quelles sont les bases de <strong>données</strong> qui auraient<br />

été utiles pour votre étude ? (Ex : <strong>données</strong> de<br />

consommation de tabac par groupe d'âge, par<br />

sexe, par département)<br />

Et avec quelles caractéristiques ? (Ex :<br />

dictionnaire de <strong>données</strong>, format de la donnée, ....)<br />

Quelles sont les variables que vous auriez<br />

souhaités avoir afin de faciliter le croisement de<br />

<strong>données</strong> ?<br />

Quelles sont les outils/métho<strong>des</strong> que vous auriez<br />

souhaité avoir disponibles ?<br />

Juin 20<strong>08</strong> page 63


Afsset • RAPPORT « Action 35 du PNSE : enquête sur le croisement de <strong>données</strong> »<br />

4. Attentes générales vis-à-vis de l’enquête<br />

-------------------------------------------------------------------------------------------------------------------<br />

--------------------------------------------------------------------------------------------------------------------------------------<br />

--------------------------------------------------------------------------------------------------------------------------------------<br />

--------------------------------------------------------------------------------------------------------------------------------------<br />

--------------------------------------------------------------------------------------------------------------------------------------<br />

---<br />

Juin 20<strong>08</strong> page 64


Afsset • RAPPORT « Action 35 du PNSE : enquête sur le croisement de <strong>données</strong> »<br />

Annexe 2 : Modifications apportées à la grille d’entretien (après la<br />

première série de six entretiens)<br />

Dans la partie « 2. Données et métho<strong>des</strong> » :<br />

<br />

à la question 2.1.2.1, nous avons ajouté : « Apporter <strong>des</strong> précisions sur la base de<br />

<strong>données</strong> » ;<br />

à la question 2.1.2.3, nous avons ajouté, pour préciser la notion de <strong>données</strong> individuelles :<br />

« au sens statistique du terme » ;<br />

<br />

dans les questions 2.1.2.4 et 2.1.2.5, il s’agit du pas de temps / de l’échelle spatiale <strong>des</strong><br />

<strong>données</strong> brutes utilisées (plutôt que <strong>des</strong> <strong>données</strong> brutes de la base de <strong>données</strong>).<br />

Dans la partie « 3. Atouts, limites, difficultés et évolutions souhaitées » :<br />

<br />

<br />

<br />

à la question 3.1.1.3, nous avons ajouté : « Préciser les différents types de formats<br />

rencontrés » ;<br />

à la question 3.1.1.9, nous avons ajouté, pour préciser la notion de représentativité <strong>des</strong><br />

<strong>données</strong> brutes pour l’étude : « sens de la donnée, interprétation » ;<br />

à la question 3.1.1.12, nous avons ajouté une question sur la « pérennité de la base de<br />

<strong>données</strong> créée ».<br />

Une nouvelle partie « 4. Attentes générales vis-à-vis de l’enquête » a été ajoutée.<br />

Juin 20<strong>08</strong> page 65


Afsset • RAPPORT « Action 35 du PNSE : enquête sur le croisement de <strong>données</strong> »<br />

Juin 20<strong>08</strong> page 66


Afsset • RAPPORT « Action 35 du PNSE : enquête sur le croisement de <strong>données</strong> »<br />

Annexe 3 : Liste <strong>des</strong> équipes non retenues pour l’enquête<br />

Ces 14 équipes scientifiques ont été contactées par les consultants de PwC mais non finalement pas<br />

été intégrées à l’enquête. Leur étude ne rentrait pas dans les critères de sélection de l’enquête ou<br />

elle n’était pas assez avancée pour permettre un retour d’expérience.<br />

Personnes contactées & Thèmes de recherche<br />

I. Baldi (ISP<strong>ED</strong> - LSTE)<br />

Risques environnementaux dans le milieu agricole<br />

F. Simondon – J. Gardon (IRD)<br />

Origine <strong>des</strong> pollutions polymétalliques et impact sur l’environnement, la santé et la société, en Bolivie<br />

JP. Gérard – J.Y. Koch-Mathian (BRGM)<br />

Vulnérabilité <strong>des</strong> eaux souterraines<br />

H. Léridon / S. Vandentorren (IN<strong>ED</strong>/InVS)<br />

Projet ELFE : Etude Longitudinale Française depuis l’Enfance<br />

I. Momas (Faculté <strong>des</strong> sciences pharmaceutiques et biologiques, université Paris V)<br />

Impact de la pollution atmosphérique sur la santé<br />

JY. Chatelier (INERIS)<br />

Eau (directive cadre), émissions atmosphériques (EPER), substances chimiques (portail)<br />

F. Jusot (IRDES)<br />

Harmonisation de l’enquête Patrimoine au décès et de l’enquête Revenus fiscaux<br />

A. Leclerc (INSERM)<br />

<strong>Croisement</strong> entre les <strong>données</strong> de l’Echantillon Démographique Permanent (INSEE) et les <strong>données</strong> du<br />

CépiDC<br />

M. Lafaye (CNES)<br />

Etude sur la fièvre de la Vallée du Rift<br />

JF. Doré (INSERM)<br />

Constitution d’une base de <strong>données</strong> d’exposition au rayonnement UV<br />

J. Clavel (INSERM)<br />

Cancers de l’enfant / ligne à haute tension<br />

JP. Morin (INSERM)<br />

Mesures embarquées en véhicule pour étudier l’exposition à la pollution atmosphérique dans le<br />

transport automobile<br />

A. Cicollela (INERIS)<br />

Projet CIRCE (Cancer inégalités régionales cantonales et environnement)<br />

P. Arveux - M. Maynadié (CHU Dijon/ FNLCC)<br />

Cancer du sein et hémopathies malignes<br />

Juin 20<strong>08</strong> page 67


Afsset • RAPPORT « Action 35 du PNSE : enquête sur le croisement de <strong>données</strong> »<br />

Juin 20<strong>08</strong> page 68


agence française de sécurité sanitaire<br />

de l’environnement et du travail<br />

253, avenue du Général Leclerc<br />

94701 Maisons-Alfort Cedex<br />

Tél. +33 1 56 29 19 30<br />

afsset@afsset.fr<br />

www.afsset.fr<br />

ISBN 978-2-11-097835-6<br />

© Afsset - DECID Mai 20<strong>08</strong><br />

Création : www.yin.fr Crédit photos : Getty Images

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!