11.07.2015 Views

actes des journées de méthodologie statistique - Epsilon - Insee

actes des journées de méthodologie statistique - Epsilon - Insee

actes des journées de méthodologie statistique - Epsilon - Insee

SHOW MORE
SHOW LESS

Create successful ePaper yourself

Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.

INSEE MÉTHODESPi' 56 - 57 - 58ACTES DES JOURNÉESDE MÉTHODOLOGIESTATISTIQUE15 et 16 décembre 1993Complément•INSEE


ACTES DES JOURNÉESDE MÉTHODOLOGIESTATISTIQUE15 et 16 décembre 1993Cor--- ment


RÉPUBLIQUE FRANÇAISEINSTITUT NATIONALDE LA STATISTIQUE ET DES ÉTUDES ÉCONOMIQUESDirection Générale18, boulevard Adolphe-Pinard - 75675 Paris ce<strong>de</strong>x 14Directeur <strong>de</strong> la publication : Paul ChampsaurRédactrice en chef : Michèle GaroCorrecteur : Jean-Pierre MoreauMaquettistes : Mireille Brunet, Régine Burlando, Patrick Lapierre <strong>de</strong> Mélinville


AVEflTISSEMENTPour <strong><strong>de</strong>s</strong> raisons techniques, nous n'avons pu inclure ces trois interventions dans levolume principal "Actes <strong><strong>de</strong>s</strong> Journées <strong>de</strong> Méthodologie Statistique - 15 et 16 décembre1993" paru en août 1996.Leur présentation, non reprise ici, figure dans le chapitre "Synthèse <strong><strong>de</strong>s</strong> interventions"page 9 <strong>de</strong> ce même volume.


SOMMAIREErratum à l'interventionNon-réponse : principes et métho<strong><strong>de</strong>s</strong>(Jean-Clau<strong>de</strong> DEVILLE et Françoise DUPONT - <strong>Insee</strong>) 7[Session 2 : Corrections pour non-réponse]Calage et redressement <strong>de</strong> la non-réponse totale : validité <strong>de</strong> la pratiquecourante <strong>de</strong> redressement et comparaison <strong><strong>de</strong>s</strong> métho<strong><strong>de</strong>s</strong> alternativespour l'enquête sur la consommation alimentaire <strong>de</strong> 1989(Françoise DUPONT - <strong>Insee</strong>) 9[Session 2 : Corrections pour non-réponse]L'économétrie <strong><strong>de</strong>s</strong> modèles <strong>de</strong> durée avec SAS : présentation et mise enoeuvre(C. CASES et S. LOLLIVIER - <strong>Insee</strong>) 43[Session 3 : Données <strong>de</strong> survie]Recensement <strong>de</strong> la population du Canada 1991 : expérience avec unsystème <strong>de</strong> codification automatique(Jocelyn TOURIGNY - Statistique Canada) 85[Conférences spéciales]Actes <strong><strong>de</strong>s</strong> <strong>journées</strong> <strong>de</strong> <strong>méthodologie</strong> <strong>statistique</strong> 5


Erratum à l'intervention <strong>de</strong>Jean-Clau<strong>de</strong> Deville et Françoise DupontNON-RÉPONSE:PRINCIPES ET MÉTHODES( Session 2, page 53 du volume principal )Page 61, lire :L'estimateur par expansion du total d'une variable y sera alors égal à:YL Y k/itk P krPage 63, lire :le modèle log-linéaire-1 : Pk = exp ( - x'k [3) ;- le modèle log-linéaire-0 : Pk =1 - exp ( - x'k [3 ) ;le modèle Logit : Pk = exp ( - x'k [3) / (1 + exp ( - x'k 5 ) ).À partir <strong>de</strong> la page 64:l'expression Pek est à lire : P.Page 64, lire :A AY ( )Yk 1A —Pk )Y k 1 ^- (13 -n )'r nk Pk ( P )•Yk P (5 )— --k---- — + rester nk P 2 k (r3 )Non-réponse : principes et métho<strong><strong>de</strong>s</strong> 7


Dans cette égalité P (13) est le vecteur <strong><strong>de</strong>s</strong> dérivés partielles <strong>de</strong> Pk (13) par rapport auxcoordonnées <strong>de</strong>inférieur 1/Nrn .et "Reste" est une quantité dont l'ordre en probabilité estAu lieu <strong>de</strong> :( L -b )= 0 p(lArn) et (Â - A) = Op(Wii).lire :p - ) Op0Al- ) et( - A). Op(lArn).Page 67, au lieu <strong>de</strong> :Si on pose vk = wk Zklire :Si on pose vk = Wk ZkX'k est à lire x k dans toutes les formules.8 <strong>Insee</strong> Métho<strong><strong>de</strong>s</strong> n° 56-57-58


Calage et redressement<strong>de</strong> la non réponse totale :Validité <strong>de</strong> la pratique courante <strong>de</strong> redressementet comparaison <strong><strong>de</strong>s</strong> métho<strong><strong>de</strong>s</strong> alternativespour l'enqête sur la consommationalimentaire <strong>de</strong> 1989F DupontLa pratique courante du redressement <strong><strong>de</strong>s</strong> enquêtes réalisées auprès <strong><strong>de</strong>s</strong> ménages parl'INSEE, consiste à caler la structure <strong><strong>de</strong>s</strong> répondants sur la structure <strong>de</strong> la populationfrançaise connue à la même pério<strong>de</strong> pour <strong><strong>de</strong>s</strong> variables qualitatives x i ....x, du type âge,sexe, CS, catégorie d'agglomération, nombre <strong>de</strong> personnes dans le ménage (1).Cette opération préalable à toute exploitation <strong>de</strong> l'enquête vise simultanément à éliminer lesdéformations <strong>de</strong> structure dues à un comportement <strong>de</strong> non-réponse non uniforme, et àaméliorer les performances <strong><strong>de</strong>s</strong> estimations futures tirées <strong>de</strong> l'enquête en amoindrissant leseffets <strong>de</strong> l'erreur d'échantillonnage. On intègre à cet effet, la connaissance, sans aléa, <strong><strong>de</strong>s</strong>tatistiques <strong>de</strong> même nature (totaux) qui portent sur <strong><strong>de</strong>s</strong> variables x i ,....,x, . Lorsque lesvariablessont corrélées aux variables d'enquête, cette opération améliorel'estimation <strong><strong>de</strong>s</strong> variables d'enquêtes. On suppose également que lorsque les variablesexpliquent entièrement les disparités dans le mécanisme <strong>de</strong> réponse, leredressement par calage corrige les biais induit par les déformations <strong>de</strong> structure dues aucomportement <strong>de</strong> non-réponse non uniforme.Or, à l'heure actuelle, la justification théorique rigoureuse <strong>de</strong> cette métho<strong>de</strong> appeléemétho<strong>de</strong> n°I dans la suite, n'est acquise que lorsque le comportement <strong>de</strong> réponse estuniforme.Une démarche alternative naturelle, appelée métho<strong>de</strong> n°2 dans la suite, correcte sur le planthéorique, consiste à corriger la forme <strong><strong>de</strong>s</strong> estimateurs tirés <strong>de</strong> l'enquête pour tenir compte <strong>de</strong>la non-réponse dans une première étape, et à améliorer la performance <strong><strong>de</strong>s</strong> estimations dansun <strong>de</strong>uxième temps, c'est-à-dire à traiter l'erreur d'échantillonnage.La première étape requiert une modélisation du comportement <strong>de</strong> non-réponse pour laquelleles modèles économétriques offrent un cadre général permettant d'utiliser l'informationauxiliaire directement sous forme qualitative ou quantitative.La <strong>de</strong>uxième étape consiste à caler l'échantillon sur une structure externe considérée connuesans aléa, après avoir divisé les poids <strong>de</strong> sondage <strong>de</strong> chaque individu par les probabilités <strong>de</strong>non-réponse données par la première étape.Cette <strong>de</strong>uxième métho<strong>de</strong> est plus lour<strong>de</strong> à mettre en oeuvre (2) et requiert plus d'informationque la première. Elle nécessite en effet <strong>de</strong> connaître pour l'ensemble <strong><strong>de</strong>s</strong> individus tirés laCorrections pour la non réponse 9


valeur du groupe <strong>de</strong> variables utilisé pour estimer le modèle <strong>de</strong> non-réponse. La premièremétho<strong>de</strong>, en revanche ne requiert aucune information au niveau individuel ou agrégé sur lesnon-répondants.En pratique, les <strong>de</strong>ux métho<strong><strong>de</strong>s</strong> conduisent à élaborer <strong>de</strong> nouvelles pondérations pour lesindividus qui remplaceront l'inverse <strong><strong>de</strong>s</strong> poids <strong>de</strong> sondage dans l'estimation <strong>de</strong> <strong>statistique</strong>stirées <strong>de</strong> l'enquête.Le but <strong>de</strong> cette étu<strong>de</strong> est <strong>de</strong> déterminer le domaine <strong>de</strong> validité <strong>de</strong> la pratique courante, etd'étudier les différences entre les résultats obtenus par les <strong>de</strong>ux métho<strong><strong>de</strong>s</strong> dans un casconcret.partie I : On montre dans cette étu<strong>de</strong> que les <strong>de</strong>ux métho<strong><strong>de</strong>s</strong> coinci<strong>de</strong>nt exactement dans uncas particulier•. Lorsque la fonction utilisée dans la procédure <strong>de</strong> calage et la formefonctionnelle du modèle <strong>de</strong> réponse sont exponentielles, ou lorsque la non-réponse ne dépendque d'une seule variable qualitative qui est prise en compte dans le calage, les <strong>de</strong>uxmétho<strong><strong>de</strong>s</strong> sont équivalentes. Dans ce <strong>de</strong>rnier cas, les <strong>de</strong>ux métho<strong><strong>de</strong>s</strong> se confon<strong>de</strong>nt avec unepostratification.partie II : On étudie ensuite l'ampleur• <strong>de</strong> l'écart entre les <strong>de</strong>ux métho<strong><strong>de</strong>s</strong> lorsqu'elles necoinci<strong>de</strong>nt pas exactement pour une enquête réalisée par l'INSEE : l'enquête sur laconsommation alimentaire <strong>de</strong> 1989.NOTES:(I) La structure <strong>de</strong> référence utilisée pour le calage est issue, sauf proximité avec lerecensement,<strong>de</strong> l'enquête emploi <strong>de</strong> mars <strong>de</strong> la même année, qui fait alors office <strong>de</strong> minirecensement.La taille <strong>de</strong> l'echantillon <strong>de</strong> l'enquête emploi ne permet pas d'obtenir <strong><strong>de</strong>s</strong>structures croisées stables, on se limite donc au calage sur les distributions marginales pourun vecteur <strong>de</strong> variables du type: âge, csp, catégorie d'agglomération, réalisé par le logicielCALM4R.(2) En effet la métho<strong>de</strong> n°2 requiert l'estimation par le maximum <strong>de</strong> vraisemblance du modèle<strong>de</strong> non-réponse (FROC LOGISTIC) et, surtout, dans l'organisation actuelle du stockage <strong><strong>de</strong>s</strong>résultats d'enquête, l'appariement du fichier <strong>de</strong> saisie <strong>de</strong> l'enquête et du fichier <strong>de</strong> sondageconstitué au moment du tirage contenant les variables xl...xk et les poids <strong>de</strong> sondage.Lorsque les pondérations sont simples cet appariement n'est pas nécessaire pour appliquer lamétho<strong>de</strong> n°I.10 INSEE Métho<strong><strong>de</strong>s</strong> n° 56-57-58


1-cadre théorique et présentation <strong><strong>de</strong>s</strong> <strong>de</strong>ux métho<strong><strong>de</strong>s</strong> <strong>de</strong> redressement alternatives :1-1 cadre probabiliste :Le cadre probabiliste utilisé pour modéliser les aléas d'échantillonnage et du processus <strong>de</strong>réponse est le suivant:unité'ère phase:tirage <strong>de</strong>l'échantillonn'appartient pas àl'échantillone - =02n<strong>de</strong> phasemécanisme <strong>de</strong>réponserépond à l'enquêter = 1appartientl'échantillone =1ne répond pas à l'enquêter = 0On noteT, = P(e, = 1) probabilité d'inclusion <strong>de</strong> l'unitéd'échantillonnage ip, = P(r, = 1) probabilité <strong>de</strong> réponse <strong>de</strong> l'unité is :r :population cibleensemble <strong><strong>de</strong>s</strong> n unités échantillonnéesensemble <strong><strong>de</strong>s</strong> m répondantsL'unité échantillonnée est le logement, mais l'unité d'observation est le ménage. Lespondérations seront donc in fine relatives au ménage. Les <strong>de</strong>ux métho<strong><strong>de</strong>s</strong> <strong>de</strong> redressementétudiées consistent à modifier les poids initiaux associés à chaque ménage et découlant du plan<strong>de</strong> sondage selon <strong>de</strong>ux stratégies utilisant toutes les <strong>de</strong>ux <strong>de</strong> l'information auxiliaire.1-2 calage simple en l'absence <strong>de</strong> non-réponse:On supposera dans la suite que l'on s'est ramené, ce qui est toujours possible, au cas où lesvariables qualitatives sont déjà sous la forme <strong>de</strong> variables indicatrices <strong>de</strong> modalités.Corrections pour la non réponse 11


On dispose d'information aux aire sous la forme <strong>de</strong> k variables x,x, quantitatives ouqualitatives :-au niveau individuel sur l'ensemble <strong>de</strong> l'échantillon interrogé,-au niveau <strong>de</strong> la population, sous la forme du vecteur <strong><strong>de</strong>s</strong> totauxX = ( X„ , X„ )x x,1 - •eU EU I Et1) ,supposé connu sans aléa où x, = (x„ .x,„ ).On souhaite estimer le total sur la population U d'une variable y. L'estimateur naturel <strong>de</strong> cetotal Y= y, en l'absence d'information auxiliaire est donné par = E , estimateurEU ES 7;d'Horvitz-Thompson, qui estime sans biais le total Y. Or l'aléa d'échantillonnage se traduitY,par le fait que 11 — va varier dans un intervalle centré enles 7,Y <strong>de</strong> longueurproportionnelle à son écart-type. De la même façon .X=—2- va varier dans un intervallecentré en X <strong>de</strong> longueur proportionnelle à son écart-type . Or on connaît avec certitu<strong>de</strong> letotalX. Si la variable, (ou plus généralement le vecteur <strong>de</strong> variables ), y est corrélée auvecteur <strong>de</strong> variables x dans la population, une partie du gain <strong>de</strong> précision qu'il y a entre,estimer le total X par--L• et utiliser la vraie valeur, peut être répercutée sur l'estimation <strong>de</strong>I ESY pour en améliorer la précision.La solution naturelle consiste à utiliser l'estimateur par régression <strong>de</strong> y sur le vecteur <strong>de</strong>variables x = (x, ,....x„ ) . Soit:— x, B„, = B ( X —où B représente le coefficient <strong>de</strong> la regression <strong>de</strong> y sur le vecteur <strong>de</strong> variables x = (x, x, )estimé sur l'échantillon s.En réalité, la solution la plus générale à ce jour, qui recouvre la précé<strong>de</strong>nte consiste àconstruire une famille d'estimateurs ( estimateurs par calage ) aussi proches que possible <strong>de</strong>l'estimateur d'Horvitz-Thompson (au sens d'une distance sur les poids), qui réconcilieexactement l'estimateur et la vraie valeur pour le vecteur <strong>de</strong> variables xOn recherche alors les poids (w, ) du nouvel estimateur vérifiant w = X les plus(proches possibles <strong><strong>de</strong>s</strong> poids <strong>de</strong> sondage initiauxT ,12 INSEE Métho<strong><strong>de</strong>s</strong> n° 56-57-58


edressement ( -w,sous contrainte:(1 \Le choix <strong>de</strong> la distance entre les poids initiaux d, =—T ,et les poids aprèscaractérise la métho<strong>de</strong>. On résoud ainsi un programme <strong>de</strong> minimisationmin E H(d,,w,) où H(.,.) représente une pseudo distance sur 91,,essous la contrainte x, w. = XPour assurer l'existence et l'unicité d'une solution, il est nécessaire d'imposer <strong><strong>de</strong>s</strong> conditions <strong>de</strong>régularité sur la fonction H(.,.)En pratique, on réduit donc la classe <strong><strong>de</strong>s</strong> pseudo distances possibles aux fonctions <strong>de</strong> la forme:H(d,w)=d.T(--d-w )en imposant <strong><strong>de</strong>s</strong> conditions <strong>de</strong> régularité supplémentairesT est une fonction convexe 91T(1) = T'(1) =T"(1) = 1Parmi les pseudo distances vérifiant ces conditions, on trouve à une constante près les <strong>de</strong>uxformes du chi <strong>de</strong>ux selon que la référence est w ou d.La résolution du programme <strong>de</strong> minimisation à l'ai<strong>de</strong> <strong><strong>de</strong>s</strong> multiplicateurs <strong>de</strong> Lagrange b conduitau système équivalent suivant :( 1 )' -=-= F(xh)d,(2) x,w, = XIESoù F est reliée à T par F(u) = T'' (u)Les nouveaux poids apparaissent comme une correction multiplicative <strong><strong>de</strong>s</strong> poids initiaux auniveau individuel basée sur la valeur du vecteur <strong><strong>de</strong>s</strong> variables auxiliaires (x,, xh.) pourchaque individu.Différents choix sont possibles pour F . Les différentes fonctions F ainsi que les fonctions T etH associées sont:Corrections pour la non réponse 13


F H TlinéaireF (x) =1+ xH(w,d)= (w - d)22d1T(u)= -(u- 1)2 2exponentielleouraking ratiolinéairetronquéeF (x) = exp(x)F (x) = 1 + xsi xe[L,U]F (x) = 1 + L si xd,F (x) = 1 + U si x>UwH (mi ,d)= w .10g(d_)-w +d T( r) = u logu- u +1(w-d)'1H (w ,d)T(u)= - ( u - 1)-2d2si xe[L,U]sivi —ci e[L,U]T(u) = u e, sinon11(14i,d)= o sinonlogit 1 cr ,, iU-1.(I-1 )cxp(.4, ) ' 'uavecU - I.A-(1- L)(./ -1)1(14',d)=dT(—)ino.ro- L)Lcg=+(L-1)Logb7 Lr .'T(u) = J. sinonsi ue [L,U)chi-<strong>de</strong>uxF (x) --= (1- 2x)-1''(w -d)H (w,d) -TOI). (u - 1)-2w2nhellinger » (x) = (1 - x) ' H (,,, ,d) = (JI; - ji )2 T(I) = (i,',71 -1 )2entropieF(x) = (1+ x)-',d) dLog () (w - d) 7( n)=-Log(u)± n -114 INSEE Métho<strong><strong>de</strong>s</strong> n° 56-57-58


Lorsque F est linéaire, l'estimateur par calage correspond à l'estimateur parrégression qui apparaît dans ce cas comme une présentation duale possible <strong>de</strong> lamétho<strong>de</strong> linéaire.Lorsque F est exponentielle, le calage correspond à la technique du raking ratio.La justification théorique <strong>de</strong> l'emploi <strong>de</strong> l'estimateur par calage est asymptotique etrepose sur diverses hypothèses, dont la plus importante est la convergence <strong>de</strong>E XL vers Y à la vitesse <strong>de</strong> —,— lorsque n —> x et N —>Lorsque les hypothèses sont vérifiées, les différentes métho<strong><strong>de</strong>s</strong> d'estimation par calagesont asymptotiquement équivalentes (voir DEVILLE SARNDAL 1992 ), c'est àdire que lorsque n —> co et N > ce , les résultats obtenus à l'ai<strong>de</strong> <strong>de</strong> cesdifférentes métho<strong><strong>de</strong>s</strong> d'estimation se rapprochent. Des comparaisons menées sur <strong><strong>de</strong>s</strong>enquêtes INSEE confirment la proximité <strong><strong>de</strong>s</strong> résultats obtenus à partir <strong><strong>de</strong>s</strong> différentesmétho<strong><strong>de</strong>s</strong>. Les variances <strong>de</strong> ces estimateurs, et donc leurs précisions, sont égalementéquivalentes asymptotiquement.Ces métho<strong><strong>de</strong>s</strong> peuvent être mises en oeuvre facilement grâce à la macro CALMAR(CALage sur MARges), écrite en langage SAS par O.SAUTORY (voir O.SAUTORY1993).1-3 la pratique courante du redressement <strong><strong>de</strong>s</strong> enquêtes en présence <strong>de</strong>non-réponse : calage simple (métho<strong>de</strong> n°1):Le calage a pour but <strong>de</strong> réduire les effets <strong>de</strong> l'aléa d'échantillonnage. Toutefois, lapratique courante pour le redressement <strong><strong>de</strong>s</strong> enquêtes consiste à appliquer cettemétho<strong>de</strong> à l'ensemble <strong><strong>de</strong>s</strong> répondants, <strong>de</strong> façon à réduire les effets <strong>de</strong> l'aléad'échantillonnage tout en corrigeant simultanément les déformations <strong>de</strong> structureinduite par la non-réponseLe calage effectué grâce à l'information auxiliaire X = conduit à <strong><strong>de</strong>s</strong> poids w,obtenus à partir <strong>de</strong> l'une <strong><strong>de</strong>s</strong> fonctions F mentionnées précé<strong>de</strong>mment, qui vérifient:(3)E Xi = XiErF(x,b)(4) =Ti3(donc estimé), c'est à dire min.où )3 représente le taux <strong>de</strong> non-réponse observéCorrections pour la non réponse 15


n°2).1-4 une démarche correcte : le redressement en <strong>de</strong>ux étapes (métho<strong>de</strong>La non réponse est traitée comme une phase additionnelle <strong>de</strong> tirage. L'estimateurnaturel du total Y est l'estimateur sans biaisErcomportement <strong>de</strong> réponse à travers la probabilité <strong>de</strong> réponse p,.qui tient compte duAyant corrigé l'estimateur pour intégrer la non-réponse, on peut utiliser l'informationauxiliaire X pour limiter les effets <strong>de</strong> l'aléa d'échantillonnage. On modifie donc lespondérations1<strong><strong>de</strong>s</strong> individus en <strong><strong>de</strong>s</strong> pondérations w * définies par :(5) Exi wi *, XiEr(6) * F * (x,b*)où F* est une <strong><strong>de</strong>s</strong> fonctions possibles pour le calage. La justification asymptotique <strong>de</strong>l'emploi <strong>de</strong> l'estimateur par calage est alors acquise, si l'on considère le sondage en<strong>de</strong>ux phases que constitue le tirage <strong><strong>de</strong>s</strong> répondants. Il suffit alors <strong>de</strong> remplacer n par m,d'où m —> xetN —> 09 .Cependant, en pratique, p, est inconnu et doit être estimé dans une première étape. Ladémarche correcte pour effectuer le redressement consiste donc à :1- modéliser le comportement <strong>de</strong> réponse <strong>de</strong> façon à estimerp, . dansune 1 ère étape, et modifier les pondérations <strong><strong>de</strong>s</strong> individus en divisant les poids <strong><strong>de</strong>s</strong>ondage par les probabilités <strong>de</strong> réponse estimées : p .2- caler l'échantillon <strong><strong>de</strong>s</strong> répondants sur une structure connue pour lapopulation totale, en partant <strong><strong>de</strong>s</strong> poids <strong>de</strong> sondage modifiés pour tenir compte <strong>de</strong> lanon-réponse.Les pondérations résultantes w, à utiliser dans les estimations issues <strong>de</strong> l'enquête sontalors données par:(5)(6)'F * (x,b*)où F* est une <strong><strong>de</strong>s</strong> fonctions possibles pour lecalage.16 INSEE Métho<strong><strong>de</strong>s</strong> n° 56-57-58


En pratique, on utilise pour p, un modèle paramétrique <strong>de</strong> typep, = G(z,c) où(z i zh ) représente un vecteur <strong>de</strong> variables auxiliaires. En général, la condition p, E[0,1] conduit à choisir pour G une fonction <strong>de</strong> répartition. On utilise ainsi courammentun modèle LOGIT qui correspond à la fonction <strong>de</strong> répartition d'une loi logistique et lemodèle PROBIT qui correspond à la fonction <strong>de</strong> répartition d'une loi normale. On peutégalement ne pas inclure la contraintep, o [0,1] dans le modèle, et envisager parexemple une modélisation linéaire p, = zic ou exponentielle p, = exp(z,c).Le paramètre c est alors estimé par une métho<strong>de</strong> convergente. La plus habituelle est lamétho<strong>de</strong> du maximum <strong>de</strong> vraisemblance, qui présente l'avantage d'être facilement miseen oeuvre lorsque G est la fonction <strong>de</strong> répartition <strong>de</strong> la loi logistique ou <strong>de</strong> la loinormale ou encore <strong>de</strong> la loi <strong>de</strong> Gompertz.NB : La pratique courante, ou métho<strong>de</strong> n°1, correspond alors par construction,d'après ce qui précè<strong>de</strong>, au cas particulier d'un modèle <strong>de</strong> non-réponse uniforme pour lamétho<strong>de</strong> n°2, où la probabilité <strong>de</strong> non-réponse constante est estimée par m/n.1-5 quelques remarques sur la mise en pratique <strong>de</strong> ces <strong>de</strong>ux métho<strong><strong>de</strong>s</strong> :La métho<strong>de</strong> n°1 nécessite <strong>de</strong> connaître :- les totaux X, = E x„Xk = E x,, pour la population- les valeurs <strong><strong>de</strong>s</strong> variables x,xk au niveau individuel pour lesrépondants seulement.La métho<strong>de</strong> n°2 nécessite <strong>de</strong> connaître :4, pour le calage :- les totaux X, X„ pour la population- les valeurs <strong><strong>de</strong>s</strong> variables x,....x, au niveau individuel pour lesrépondants+pour l'estimation du modèle <strong>de</strong> réponse- Simultanément les valeurs <strong><strong>de</strong>s</strong> variables z, z, au niveau individuelpour les répondants et les non-répondants dans le même fichier.Corrections pour la non réponse 17


ésumé <strong>de</strong> l'information nécessaire:métho<strong>de</strong> n°1Vi E rmétho<strong>de</strong> n'2ViesX, X„Io<strong>de</strong> 111 présente donc <strong>de</strong>ux avantages:-••,iint moins d'information,- el s icgère dans sa mise en oeuvre il n'y a pas <strong>de</strong>estimer..a„, 7- oeuvre..11;07.nt dues<strong>de</strong> d -ratioluounetiui<strong>de</strong>F.


On établit également que lorsque les <strong>de</strong>ux techniques sont i<strong>de</strong>ntiques, elles sont aussiéquivalentes à une nouvelle instance <strong>de</strong> la métho<strong>de</strong> n°2 appliquée cette fois avec lesprobabilités <strong>de</strong> réponse p, = exp(2,e) ex<strong>actes</strong>, (non estimées).Nous verrons que les <strong>de</strong>ux techniques coinci<strong>de</strong>nt également lorsque la variable prise encompte dans le calage est une variable qualitative, et qu'elle recouvre les variables dumodèle <strong>de</strong> réponse. Les <strong>de</strong>ux métho<strong><strong>de</strong>s</strong> réalisent alors une poststratification.La métho<strong>de</strong> usuelle (métho<strong>de</strong> n°1) n'admettant pas <strong>de</strong> justification théorique naturelledans le cas général, l'objet <strong>de</strong> la <strong>de</strong>uxième partie est d'étudier l'écart entre les <strong>de</strong>uxmétho<strong><strong>de</strong>s</strong> lorsqu'elles ne coinci<strong>de</strong>nt pas en pratique. Nous comparerons ainsi lesrésultats obtenus pour l'enquête sur la consommation alimentaire réalisée en 1989 par1-6-a Lorsque les fonctions <strong>de</strong> calage F et F* et la forme fonctionnelle du modèle<strong>de</strong> réponse G sont exponentielles : les <strong>de</strong>ux métho<strong><strong>de</strong>s</strong> coinci<strong>de</strong>nt exactement.Métho<strong>de</strong> n°1: pratique courante, calage simple:F(x,b)Les poids w, sont donnés par l'équation en l'inconnue b :TiP(7), (x b)YI)ou p• soit lorsque F(u) = F * (u) = 0(u) = exp(u):(8) exp(x,b — log(h)x,Métho<strong>de</strong> n°2:Les poids w, * = F * (xb) sont donnés par l'équation en l'inconnue h*:(9)F * (x,b*)77C;(z,i')Corrections pour la non réponse 19


♦ soit lorsque F(u) = F * (u) = G (u) = exp(u):(10)'Grexp(x,b *—z,ê) 2c,xOn montre (voir annexe) que lorsque les variables <strong>de</strong> calage recouvrent les variablesexp (x,a)z, „ du modèle <strong>de</strong> réponse, la solution <strong>de</strong> l'équation= Xlorsqu'elle existe est unique.Dans cette situation, on peut toujours se ramener au cas où z = ,r.Par unicité <strong>de</strong> la solution on obtient alors, lorsque la variable constante figure parmiles variables explicatives,h=b*—c*—(log(P),0, 0)F* *Les poids w, = F(x b) (x b )et w *1,p TP,coinci<strong>de</strong>nt exactement.sont donc égaux et les <strong>de</strong>ux métho<strong><strong>de</strong>s</strong>La métho<strong>de</strong> n°2 appliquée avec les probabilités <strong>de</strong> réponse ex<strong>actes</strong> est alorsi<strong>de</strong>ntique aux <strong>de</strong>ux précé<strong>de</strong>ntes par un raisonnement analogue. Les poids w, **sonten effet déterminés à partir <strong>de</strong> l'équation(9)F * (x,b**),„ TG(z,e)L'unicité <strong>de</strong> la solution <strong>de</strong> l'équationwi w, * , w, **exp(x a), = X conduit à l'égalité <strong><strong>de</strong>s</strong> poids7,20 INSEE Métho<strong><strong>de</strong>s</strong> n° 56-57-58


1-6-b lorsque le calage s'effectue sur la base d'une variable qualitative quiexplique entièrement le mécanisme <strong>de</strong> réponse, les <strong>de</strong>ux métho<strong><strong>de</strong>s</strong> coinci<strong>de</strong>nt etréalisent une poststratificationDans ce cas en effet, les formes fonctionnelles non tronquées donnent toutes <strong><strong>de</strong>s</strong>paramétrisations équivalentes. Le choix <strong>de</strong> F d'une part, <strong>de</strong> F* d'autre part et enfin <strong>de</strong>G sont alors indifférents.On peut donc se ramener au cas où F=F*=G=exp et appliquerle résultat précé<strong>de</strong>nt (voir annexe).1-7 Cas <strong>de</strong> fonctions F F* et G quelconques :,c*, X, X k étant donnés, les <strong>de</strong>ux métho<strong><strong>de</strong>s</strong> consistent à résoudre kéquations non linéaires en les k inconnues que sont b = (b, „ bk )' pour la métho<strong>de</strong>n°1 ou b* =*, ....bk *)' pour la métho<strong>de</strong> n°2.Une interprétation géométrique va permettre <strong>de</strong> mieux comprendre le lien entre les<strong>de</strong>ux métho<strong><strong>de</strong>s</strong>.On note d,— les poids initiaux, corrects en l'absence <strong>de</strong> non-réponse.1/ Calage en l'absence <strong>de</strong> non-réponseLe vecteur (w, ,w„)' <strong><strong>de</strong>s</strong> poids, obtenu par la métho<strong>de</strong> n°1, vérifie{ E x.„ 3v1 = x,(1)soit k conditions affines sur le vecteur (w,w„ )'x,„ w, = X kies(2), w F (x,b)T ,Corrections pour la non réponse 21


(w i x, = X,+La condition (1) peut se réécrire où ( ) représente le(wlxk ) = Xkproduit scalaire usuel sur 9r et x, = (x„ , x„, )', x, = (x,„ , x„, )'les vecteurs contenant les valeurs <strong><strong>de</strong>s</strong> variables auxiliaires x, v, pour les ninidividus répondants. Elle s'interprète comme l'appartenance <strong>de</strong> w à un espaceaffine <strong>de</strong> dimension n-k dans 9r .+La condition (2), s'interprète elle, comme l'appartenance <strong>de</strong> w à une courbeparamétrée par b soit k paramètres dans 9rLe vecteur d = (c 1,, d „)' <strong><strong>de</strong>s</strong> poids initiaux vérifie lui par définition <strong>de</strong>'Ÿ"l'estimateur d'Honvitz-Thompson X =X.1l d i x„SESIESdlx, = À>,soit :, qui correspond à l'appartenance <strong>de</strong> d à un espaceldixk)= Xkaffine <strong>de</strong> dimension n-k parallèle à celui défini par (1).Lorsque l'information auxiliaire consiste en une seule variable (k=1), le vecteur <strong><strong>de</strong>s</strong>poids est déterminé par l'intersection d'un hyperplan et d'une courbe paramétrée par unparamètre. Les poids initiaux sont situés eux, sur un hyparplan parallèle.Une représentation graphique dans le cas où n=2 permet <strong>de</strong> mieux comprendre:22 INSEE Métho<strong><strong>de</strong>s</strong> n° 56-57-58


vl(*)=X(v1x)=X2/ Les <strong>de</strong>ux métho<strong><strong>de</strong>s</strong> en présence <strong>de</strong> non-réponse :L'ensemble <strong><strong>de</strong>s</strong> m répondants étant donné, ainsi que les valeurs <strong>de</strong> la variable auxiliaire,le vecteur <strong><strong>de</strong>s</strong> poids w = ( w1„wm )' obtenu par la métho<strong>de</strong> n°1 est déterminépar le système à résoudre en b :(3) w = X■ sous-espace affine <strong>de</strong> dimension m-k dans 9-rF(x b)(x.b)(4) w ci, courbe paramétrée par m paramètres dans 9.i"'7;17)soit l'intersection d'un sous-espace affine et d'une courbe paramétrée.Le vecteur <strong><strong>de</strong>s</strong> poids w* obtenus par la métho<strong>de</strong> n°2 est déterminé par le systèmed'équations :Corrections pour la non réponse 23


(5) I x, }v, = X sous-espace affine <strong>de</strong> dimension m-k dans 9I"'lér(6) w *171F * (x.,b*) F*(x,b*) dTpG(x,(?)courbe paramétrée par m paramètres danssoit l'intersection d'un sous-espace affine et d'une courbe paramétrée par b*, c étantfixé dans une étape précé<strong>de</strong>nte.une représentation graphique dans le cas où m=2 permet <strong>de</strong> fixer les idées :où :Dl est la droite d'équation (v1 x) = Id, x,D2 est la droite d'équation -1,1x) = E dG(x,c)D3 est la droite d'équation (v1 x) = X24 INSEE Métho<strong><strong>de</strong>s</strong> n° 56-57-58


• L'égalité <strong><strong>de</strong>s</strong> <strong>de</strong>ux métho<strong><strong>de</strong>s</strong> 1 et 2 lorsque F(u) = F * (u) = G(u) = exp(u)correspond au fait que les courbes paramétrées d ,M(E) et M(t) , N(b*) sont lesmêmes lorsque cette triple égalité est vérifiée.♦ La représentation graphique peut être utilisée pour un cas plus général oùl'information auxiliaire se réduit à une variable quantitative qui ne prend que<strong>de</strong>ux valeurs xl et x2. On suppose alors en outre que les poids initiaux ne prennentque <strong>de</strong>ux valeurs, d, et d, , pour la même partition <strong><strong>de</strong>s</strong> individus que celle définie pourx, et c'est à dired = d, .(=> x, = x, etd, = d, oax, x,Les poids w (resp w *) ne prendront que <strong>de</strong>ux valeurs notées w, et w, (resp w, * etw, *). De même, les probabilités <strong>de</strong> réponse G(x,'è) ne prendront que <strong>de</strong>ux valeurs p,et p,. La représentation graphique précé<strong>de</strong>nte correspondant à m=2 reste donc vali<strong>de</strong>.Lorsque m —> Dc et N —> ooconverge asymptotiquement vers X (cfiE,DEVILLE, SARNDAL 1992). Ainsi la droite D2 se raproche <strong>de</strong> D3 etasymptotiquement on a : D2=D3. On s'attend donc à ce que la correction <strong>de</strong> nonréponse ait une plus gran<strong>de</strong> influence que le calage et en particulier que le choix <strong>de</strong> Gait une plus gran<strong>de</strong> influence que le choix <strong>de</strong> F*, On retrouve ainsi graphiquement lefait que le choix <strong>de</strong> la fonction <strong>de</strong> calage <strong>de</strong>vrait peu influer sur les poids finaux dans lamétho<strong>de</strong> en <strong>de</strong>ux étapes.1-8 retour sur l'utilisation naive <strong>de</strong> CALMAR dans le cas général interprétationen termes d'estimation du modèle <strong>de</strong> réponse <strong>de</strong> la métho<strong>de</strong> <strong>de</strong> redressement enune étapeAsymptotiquement (m —> x et N —> oc ), les corrections pour non réponse sontfinies contrairement aux correction pour calage qui sont en !h/ni (voir DE VILLE,DUPONT 1993 ).Corrections pour la non réponse 25


Les équations <strong>de</strong> calage en une étape (7)' d,xf (z,b) — X peuvent <strong>de</strong> cefait s'interpreter comme <strong><strong>de</strong>s</strong> équations estimantes <strong><strong>de</strong>s</strong> probabilités <strong>de</strong> réponse dans1le cas où les probabilités <strong>de</strong> réponses sont <strong>de</strong> la forme p, =F(x,c)1CrEn effet, si c était parfaitement connu, l'estimateur corrigé <strong>de</strong> la non-réponse s'écriraitX = Ed,x,F(x,c) . L'équation (7)' se réécrirait alors :'Er(a) z, F(x,b) =I É-17 (x,(c+k))di x,F(x,c) • • = X où b = c +kF(x,c)Cette équation apparait simplement comme une équation <strong>de</strong> calage avec une fonction<strong>de</strong> calage dépendant <strong>de</strong> l'unité i. Tout se passe en effet comme si on partait <strong>de</strong> poids<strong>de</strong> sondage d; * = d,F(x,c) et que l'on réalise un calage pour obtenir <strong><strong>de</strong>s</strong> poids <strong>de</strong> la(u) F(x,c + u)forme w, = d, * F,(x,X) avec 17,F(x,c)La solution <strong>de</strong> l'équation (7)' reçoit alors une inteprétation naturelle assez simpleSupposons que nous disposions <strong>de</strong> la valeur <strong><strong>de</strong>s</strong> z, sur l'échantillon s tiré toutentier, nous pourrions estimer un modèle <strong>de</strong> réponse postulé sous la forme1Pi = . son estimation par le principe du calage (voir DEVILLE, DUPONTF(x,c)1993), conduirait à résoudre(b)X= E d i ri F(xi i';) dx,F ,I ESCr(x'(c + 6)) avec "c': = c +éF(x,c)1La quantité é, tout comme la quantité X. est d'un ordre infiniment petitfttt •dLogF F'(x,c)Introduisons les quantités f,et linéarisons les <strong>de</strong>ux équationsdu L,5 F(x,c)(a) et (b)26 INSEE Métho<strong><strong>de</strong>s</strong> n° 56-57-58


Si T est la matrice T= d,F(x,c)f,x, x, et ksd F(x, x„ on aX= — ji2",) etet par conséquent :b=c+X=ê-6+X=ê+T -1 (X— k",)1=kLe vecteur b <strong>de</strong> (7)' apparait donc comme un estimateur <strong>de</strong> c dont la variance est dumême ordre <strong>de</strong> gran<strong>de</strong>ur que celle <strong>de</strong> ê quoique, en principe, plus gran<strong>de</strong>.Ainsi donc l'usage naif <strong>de</strong> CALMAR reçoit une interprétation en termed'estimation <strong>de</strong> modèle <strong>de</strong> réponse. Toutefois, les fonctions <strong>de</strong> calage habituelles nes'interprètent pas à l'exception <strong><strong>de</strong>s</strong> fonctions exponentielles et logit comme provenant<strong>de</strong> modèles <strong>de</strong> réponse très naturels.La prépondérance <strong>de</strong> la correction <strong>de</strong> non-réponse sur le calage, joue également unrôle essentiel pour le calcul <strong>de</strong> variance <strong><strong>de</strong>s</strong> estimations construite à partir duredressement en une étape. En effet, la récriture <strong>de</strong> l'équation (7)' en (a) permet <strong>de</strong>calculer la variance comme celle d'un estimateur par calage dont les poids initiauxincluent une correction pour non-réponse. Les poids initiaux conduisent alors à unestimateur sans biais qui converge vers la vraie valeur lorsque m --> co et N co. Leshypothèses permettant le calcul <strong>de</strong> variance pour l'estimateur par calage sont alorsvérifiées.L'estimation <strong>de</strong> la variance nécessite <strong>de</strong> connaitre c. Il suffit alors <strong>de</strong> remplacer c parson estimation convergente ê .La prédominance <strong>de</strong> la correction <strong>de</strong> non-réponse par rapport à la correction pourerreur d'échantillonnage conduit à réexaminer le choix <strong><strong>de</strong>s</strong> données externes surlesquelles on cale une enquête. L'interprétation en termes <strong>de</strong> modèle <strong>de</strong> réponseconduit à choisir <strong><strong>de</strong>s</strong> variables qui expliquent bien le comportement <strong>de</strong> réponse. Lecalage classique, conduit à choisir <strong><strong>de</strong>s</strong> variables qui expliquent bien les variablesd'interêt. Une voie prometteuse à explorer consisterait à associer les <strong>de</strong>ux idées : si zCorrections pour la non réponse 27


explique bien la réponse et x explique bien la variable d'interet et que le total est connu,on peut imaginer repon<strong>de</strong>rer en résolvant les équations :Z = >d; z,F(x,b)iEr1-9 remarques sur la modification <strong><strong>de</strong>s</strong> poids <strong>de</strong> sondage initiaux avant calagedans la métho<strong>de</strong> en une étape (métho<strong>de</strong> n°1):+La pratique courante consiste comme on l'a vu à corriger d'un facteur n/m les poids<strong>de</strong> sondage initiaux avant calage. on détermine alors les nouveaux poids wF(x,b)Td3par la résolution <strong>de</strong> l'équation <strong>de</strong> calageF (xi b)Tl)= X+L'interprétation en termes d'estimation <strong><strong>de</strong>s</strong> probabilités <strong>de</strong> réponses inclinerait àb)chercher <strong><strong>de</strong>s</strong> poids (w,)iE, sous la forme wi = F(xi et à résoudre l'équation <strong>de</strong>TiPcalage F(x,b) x = X .En réalité on peut montrer que pour les fonctions <strong>de</strong> calage F énumérées en 1-2, ces<strong>de</strong>ux calages alternatifs donnent les mêmes poids finaux (w ) dès lors que lavariable constante appartient à l'espace vectoriel engendré par les variables auxiliairesx, ...x,. Ceci est le cas, dès qu'il existe une variable qualitative dans les variablesauxiliaires. La variable constante est en effet obtenue comme la somme <strong><strong>de</strong>s</strong> variablesindicatrices associées à la variable qualitative.On établit en fait que la multiplication <strong><strong>de</strong>s</strong> poids initiaux par une constantequelconque ne modifie pas les résultat du calage en termes <strong>de</strong> poids finaux (àcondition <strong>de</strong> modifier en conséquence les bornes qui portent sur les rapports <strong>de</strong> poidsdans les métho<strong><strong>de</strong>s</strong> bornées). Le lien entre les paramètres b <strong><strong>de</strong>s</strong> <strong>de</strong>ux métho<strong><strong>de</strong>s</strong> avec etsans modification préalable <strong><strong>de</strong>s</strong> poids <strong>de</strong> sondage s'écrit simplement dans la métho<strong>de</strong>28 INSEE Métho<strong><strong>de</strong>s</strong> n° 56-57-58


exponentielle. Les <strong>de</strong>ux vecteurs b ne diffèrent en effet que sur la direction donnée parla variable constante .Toutefois, la multiplication <strong><strong>de</strong>s</strong> poids initiaux joue un rôle au niveau <strong>de</strong> la résolutionnumérique <strong><strong>de</strong>s</strong> équations <strong>de</strong> calage. En modifiant les poids initiaux d'un facteur n/mon modifie le point initial <strong>de</strong> la résolution. Cette modification prend en compte la plusgran<strong>de</strong> partie <strong>de</strong> l'effet <strong>de</strong> la variable constante dans F (x,b). On évite ainsi que lasolution en b comporte <strong>de</strong> trop gran<strong><strong>de</strong>s</strong> valeurs dues à une gran<strong>de</strong> correction sur lavariable constante lorsque le taux <strong>de</strong> non réponse moyen est fort et que lecomportement <strong>de</strong> réponse est relativement homogène.( En effet ceci revient à dire quela plus gran<strong>de</strong> partie <strong>de</strong> x,b est donnée par le vecteur constant ). La modification <strong><strong>de</strong>s</strong>poids initiaux effectuée en pratique donne alors une valeur initiale plus favorable. Larésolution sans correction préalable peut en effet se réveler impossible lorsque le taux<strong>de</strong> non réponse est trop important.2- comparaison empirique <strong><strong>de</strong>s</strong> <strong>de</strong>ux stratégies <strong>de</strong> redressement:résultats obtenussur une enquête réalisée par l'INSEE, l'enquête sur la consommation alimentaire<strong>de</strong> 1989.L'échantillon est obtenu par un tirage à plusieurs <strong>de</strong>grés dans la base <strong>de</strong> sondage Bconstituée <strong>de</strong> la réunion du fichier du recensement <strong>de</strong> 1982 (B1) et d'une liste <strong><strong>de</strong>s</strong>logements construits <strong>de</strong>puis 1982 tenue à jour (B2) : on souhaite enquêter <strong><strong>de</strong>s</strong>ménages ordinaires (population cible), pour cela on tire <strong><strong>de</strong>s</strong> logements.En 1982, il y a équivalence entre l'ensemble <strong><strong>de</strong>s</strong> rési<strong>de</strong>nces principales occupées par<strong><strong>de</strong>s</strong> ménages ordinaires et l'ensemble <strong><strong>de</strong>s</strong> ménages ordinaires. A la date <strong>de</strong> l'enquête lepassage entre logement et ménage ordinaire est réalisé en éliminant après constat sur leterrain, les logements détruits et les logements vacants ou occupés à titre <strong>de</strong> rési<strong>de</strong>ncesecondaires à la date <strong>de</strong> l'enquête qui sont traités comme <strong><strong>de</strong>s</strong> unités hors champ.Corrections pour la non réponse 29


Rési<strong>de</strong>nces Rési<strong>de</strong>nces logements logementsPrincipales Secondaires Vacants détruitsresi<strong>de</strong>nces secondaireslogements vacantslogements à construireunités appartenant au champ <strong>de</strong> l'enquêteunités conservées dans l'étu<strong>de</strong>Comme on l'a vu en 1-5, la métho<strong>de</strong> <strong>de</strong> redressement en <strong>de</strong>ux étapes nécessite <strong>de</strong>connaitre la valeur <strong><strong>de</strong>s</strong> variables utilisées dans le modèle <strong>de</strong> réponse pour les nonrépondants.Les variables utilisées pour estimer le modèle <strong>de</strong> réponse doivent êtredisponibles pour les répondants et les non répondants, elles proviennent parconséquent nécessairement <strong>de</strong> la base <strong>de</strong> sondage. Or l'information sur la partielogements neufs <strong>de</strong> la base <strong>de</strong> sondage ne porte que sur la date d'achèvement et lemaitre d'oeuvre. La métho<strong>de</strong> <strong>de</strong> redressement en <strong>de</strong>ux étapes ne peut donc pas êtreappliquée aux unités extraites <strong>de</strong> la base <strong>de</strong> sondage logements neufs. Ces unitésseront donc exclues <strong>de</strong> l'étu<strong>de</strong> ainsi que les logements non principaux au moment durecensement. Celle ci ne portera donc que sur les unités extraites du recensement <strong>de</strong>1982, correspondant à <strong><strong>de</strong>s</strong> rési<strong>de</strong>nces principales en 1982.Ce problème apparaît en réalité <strong>de</strong> manière générale pour toutes les enquêtesréalisées par l'INSEE à partir <strong>de</strong> l'échantillon maître. La procédure <strong>de</strong>redressement en <strong>de</strong>ux étapes ne peut s'appliquer puisqu'elle requiert l'élimination <strong><strong>de</strong>s</strong>logements neufs tirés. On voit donc l'importance <strong>de</strong> l'enjeu <strong>de</strong> l'équivalence <strong><strong>de</strong>s</strong> <strong>de</strong>uxmétho<strong><strong>de</strong>s</strong> <strong>de</strong> redressement démontrée préce<strong>de</strong>mment qui vali<strong>de</strong> du même coup la seulemétho<strong>de</strong> <strong>de</strong> redressement applicable qui correspond à la pratique courante.L'étu<strong>de</strong> qui suit a pour objectif <strong>de</strong> donner une idée <strong>de</strong> la divergence entre les <strong>de</strong>uxtechniques <strong>de</strong> redressement lorsqu'elles ne coinci<strong>de</strong>nt pas dans le contexte <strong><strong>de</strong>s</strong>enquêtes réalisées par l'INSEE. Le choix <strong>de</strong> l'enquête sur la consommation alimentaires'explique en gran<strong>de</strong> partie par l'étu<strong>de</strong> déjà effectuée par O.Sautory sur l'influence duchoix <strong><strong>de</strong>s</strong> fonctions <strong>de</strong> calage sur les pondérations au niveau individuel. Le choix s'est30 INSEE Métho<strong><strong>de</strong>s</strong> n° 56-57-58


donc porté sur l'enquête consommation alimentaire <strong>de</strong> 1989 en dépit <strong>de</strong> la distanceavec le recensement <strong>de</strong> 1982. En effet, cet écart accroit la proportion <strong>de</strong> logementsneufs dans l'échantillon et diminue donc d'une part la taille <strong>de</strong> l'échantillon utilisablepour l'étu<strong>de</strong>, il fragilise d'autre part l'eStimation d'un modèle <strong>de</strong> réponse puisque lesvariables utilisées sont relatives aux ménages occupant le logement au moment durecensement. Les resultats <strong>de</strong> cette étu<strong>de</strong> ne sont donc qu'indicatifs <strong>de</strong> la divergencedans le cas <strong>de</strong> figure le plus défavorable du point <strong>de</strong> vue <strong>de</strong> la distance au recensement.Les variables retenues ici pour le calage sont les variables qui ont été utilisées pour lecalage effectif <strong>de</strong> cette enquête, à l'exception, pour <strong><strong>de</strong>s</strong> raisons <strong>de</strong> simplicité <strong>de</strong> lavariable tranche d'âge x sexe relatives aux individus. En effet, le calage <strong>de</strong> cetteenquête comporte un calage du niveau individu et un calage du niveau ménage, ces<strong>de</strong>ux calages pouvant être effectués simultanément en substituant la variable ménage :nombre d'individus par âge x sexe à la variable du niveau individu. Cette variablen'étant pas accessible dans la base <strong>de</strong> sondage, elle a été éliminée dans l'étu<strong>de</strong>.Le modèle <strong>de</strong> réponse pouvait, quant à lui, inclure a priori toute variable disponiblepour l'ensemble <strong><strong>de</strong>s</strong> individus recensés (RP82 exhaustif). Les limitations <strong><strong>de</strong>s</strong> variablesdisponibles dans l'échantillon maître 1982, ainsi que <strong><strong>de</strong>s</strong> considérations <strong>de</strong> robustesse et<strong><strong>de</strong>s</strong> tests <strong>de</strong> significativité du modèle <strong>de</strong> réponse ont finalement conduit à ne retenir que<strong>de</strong>ux variables supplémentaires par rapport au calage : la nationalité française et larégion <strong>de</strong> référence.Ainsi les variables prises en compte dans l'étu<strong>de</strong> sont :2-1 variables retenues pour le calage (qualitatives):-nombre <strong>de</strong> personnes du ménage :1 personne2 personnes3 personnes4 personnes5 personnes6 personnes et plus-CS du chef <strong>de</strong> ménage :1- agriculteurs, exploitants2- artisans, commerçants, chefs d'entreprise3- cadres et prof intellectuelles4- professions intermédiaires5-employés6-ouvriers7- inactifs et non déclarésCorrections pour la non réponse 31


-âge du chef <strong>de</strong> ménage :16 à 24 ans25 à 34 ans35 à 44 ans45 à 54 ans55 à 64 ans65 à 74 ans75 et plus- catégorie <strong>de</strong> commune :commune ruralemoins <strong>de</strong> 10 000 h10 000 à 50 000 h50 000 à 200 000 hplus <strong>de</strong> 200 000 h2-2 variables retenues pour le modèle <strong>de</strong> non-réponse (qualitatives) :- variables <strong>de</strong> calage- region référence- nationalité:1 français2 étranger2-3 choix <strong><strong>de</strong>s</strong> formes fonctionnelles F, F* et G :Dans CALMAR trois fonctions F sont utilisées sans créer <strong>de</strong> problèmes ; il s'agit <strong><strong>de</strong>s</strong>fonctions exponentielle (raking ratio) , logit et linéaire tronquée. Seules ces troisfonctions seront donc utilisées dans l'étu<strong>de</strong> empirique.En effet, la résolution pour la fonction F linéaire peut déboucher sur <strong><strong>de</strong>s</strong> poids négatifsqui ne reçoivent aucune interprétation. Par ailleurs rappelions qu'en cas d'utilisationd'une pondération comportant <strong><strong>de</strong>s</strong> poids négatifs, ceux ci seraient éliminés par la suitelors <strong>de</strong> l'utilisation <strong>de</strong> procédures SAS telles que freq means etc...Les fonctions F chi-<strong>de</strong>ux et Fiellinger, quant à elles, posent un problème <strong>de</strong> domaine<strong>de</strong> définition : ces fonctions ne sont pas définies sur tout 9I et donc pas pour certainesvaleurs <strong>de</strong> x,b32 INSEE Métho<strong><strong>de</strong>s</strong> n° 56-57-58


Pour le modèle <strong>de</strong> non réponse, on peut estimer facilement les modèles avec laprocédure SAS proc logistic qui autorise trois fonctions G, fonction <strong>de</strong> répartition <strong><strong>de</strong>s</strong>lois logistique, normale et Gompertz. Les <strong>de</strong>ux premières sont trop proches pourinduire <strong><strong>de</strong>s</strong> différences significatives. On utilisera donc seulement les fonctions <strong>de</strong>répartition <strong><strong>de</strong>s</strong> lois logistiques et Gompertz.2-4 Résultats <strong><strong>de</strong>s</strong> <strong>de</strong>ux métho<strong><strong>de</strong>s</strong> <strong>de</strong> redressement sur l'enquêteconsommation alimentaire :2-4-1 comparaison au niveau individuel :On a cherché à évaluer la répercussion du choix <strong>de</strong> la métho<strong>de</strong> <strong>de</strong> redressement auniveau individuel, c'est-à-dire la répercussion du choix <strong><strong>de</strong>s</strong> métho<strong><strong>de</strong>s</strong> sur la valeur <strong><strong>de</strong>s</strong>poids. Pour cela on calcule au niveau <strong>de</strong> chaque ménage le rapport entre les poidsobtenus par <strong>de</strong>ux métho<strong><strong>de</strong>s</strong> alternatives. La sensibilité <strong>de</strong> la pondération à unemodification du choix <strong>de</strong> F ou F* ou G et/ou au choix entre les métho<strong><strong>de</strong>s</strong> 1 et 2 estétudiée à partir <strong><strong>de</strong>s</strong> écarts types <strong>de</strong> la distribution <strong><strong>de</strong>s</strong> rapports.En effet, soit (w ) et ( w b ) les poids obtenus par <strong>de</strong>ux procédures <strong>de</strong>IESredressement différentes a et b. La moyenne <strong><strong>de</strong>s</strong> rapports <strong>de</strong> poids est égale à un.L'écart type <strong>de</strong> la distribution du rapport <strong><strong>de</strong>s</strong> poids b mesure l'écart relatif auI ESniveau individuel <strong><strong>de</strong>s</strong> résultats obtenus par les <strong>de</strong>ux métho<strong><strong>de</strong>s</strong>. En effet1W a —w b \ 2( \a ---bivb. Cette mesure est indépendante <strong><strong>de</strong>s</strong> poids initiaux d.qui sont éliminés dans le rapport. Elle doit être comparée à l'ampleur <strong>de</strong> la correction<strong><strong>de</strong>s</strong> métho<strong><strong>de</strong>s</strong> a ou b. Celle ci peut être mesurée par le coefficient <strong>de</strong> variation <strong>de</strong> ladistribution <strong><strong>de</strong>s</strong> poids (w," )obtenus par la métho<strong>de</strong> a ou par le coefficient <strong>de</strong>variation <strong>de</strong> la distribution <strong><strong>de</strong>s</strong> poids (w, b ) obtenus par la métho<strong>de</strong> b.IESAinsi, si l'on cherche à mesurer l'influence du choix <strong>de</strong> F dans la métho<strong>de</strong> en une étape surles résultats du redressement au niveau individuel, on utilisera( ',\bWGf F°F b (xb b ),,Corrections pour la non réponse 33


Les comç..elient sPécore en'er-..varebre asaranquéte n-5;511E5O. pr;agit en cl. <strong>de</strong> re:procéciur I quiefiectierrunt.rnénago.. On souhaiteet les résultats admettant une .que ri. Li rsi puamené à envisager dans chaque groupe <strong>de</strong>lesutilisables à l'heure actuelle.Dans le second cas en revanche, l'anglediscuter <strong><strong>de</strong>s</strong> divergences entre les <strong>de</strong>ux groupesthéorique. Il s'agit mesurer les divergences en fonction <strong>de</strong> o. consiste àpoint <strong>de</strong> vueI- mécanisme <strong>de</strong> réponse vrai variables influant sur le fées <strong>de</strong> reponare etformefonctionnelle du modèle <strong>de</strong> réponse2- forme <strong><strong>de</strong>s</strong> fonctions <strong>de</strong> calage F3- forme <strong><strong>de</strong>s</strong> fonctions <strong>de</strong> calage F°4- forme fonctionnelle G utilisée pour l'estimation <strong>de</strong> la non réponse5- variables retenues dans l'estimation du modèle <strong>de</strong> réponse {oubli <strong>de</strong>par rapport au mécanisme <strong>de</strong> réponse vrai).6- métho<strong>de</strong> d'estimation retenue pour le modèle <strong>de</strong> réponse {maximum <strong>de</strong>vraisemblance, calage, moments)Ainsi, les comparaisons effectuées sur la base <strong>de</strong> l'enquête alimentaire 1989permettent seulement <strong>de</strong> replacer les conséquences sur les pondérations finales <strong><strong>de</strong>s</strong>choix qui ont été faits au niveau du redressement entre <strong>de</strong>ux groupes <strong>de</strong> métho<strong><strong>de</strong>s</strong>d'une part et <strong>de</strong> leurs variantes d'autres part par rapport aux choix qui auraient pu34 INSEE Métho<strong><strong>de</strong>s</strong> n° 56-57-58


être faits. Elles n'ont pas <strong>de</strong> portée suffisamment générale pour infirmer la théoriegénérale.les résultats sont les suivants :Dans cet exemple, les corrections pour non réponse sont <strong>de</strong>ux fois moinsimportantes (au sens d'une mesure par le coefficient <strong>de</strong> variation) que les correctionspour erreur d'échantillonnage. Les coefficients sont en effet respectivement <strong>de</strong>l'ordre <strong>de</strong> 0.2 et 0.4 quelque soient les choix opérés aux différents niveaux. On ne sesitue donc pas dans la configuration attendue en fonction <strong>de</strong> la théorie asymptotique.Les résultats que l'on obtient dans les comparaisons découlent directement <strong>de</strong> cet état<strong>de</strong> fait et peuvent s'interpreter en relation avec la figure p17 vue en 1-7Ainsi, par exemple, les effets du choix <strong>de</strong> F* n'ont pas <strong>de</strong> raison a priori d'être trèspetits <strong>de</strong>vant les effets du choix <strong>de</strong> G. La distance entre les droites Dl et D2 est eneffet <strong>de</strong>ux fois "plus petite"que la distance entre les droites D2 et D3. La différenceentre <strong>de</strong>ux pondérations alternatives dépend alors essentiellement <strong>de</strong> l'ampleur <strong>de</strong> ladifférence entre les formes fonctionnelles utilisées.a/ choix <strong>de</strong> G :La différence entre les pondérations obtenues avec la fonction <strong>de</strong>répartition d'une loi logistique et avec la fonction <strong>de</strong> répartition d'une loi <strong>de</strong> Gompertzest <strong>de</strong> l'ordre <strong>de</strong> 0.07. Elle n'est pas tout à fait négligeable par rapport à l'ampleur <strong><strong>de</strong>s</strong>Corrections pour la non réponse 35


corrections pour non réponse qui sont <strong>de</strong> 0.2 et les corrections globales qui sont <strong>de</strong>0.4.b/ choix <strong><strong>de</strong>s</strong> variables explicatives :L'influence <strong>de</strong> la modification dans le choix <strong><strong>de</strong>s</strong> variables explicatives du modèle <strong>de</strong>réponse est <strong>de</strong> l'ordre <strong>de</strong> 0.07 également.c/ choix <strong>de</strong> F* :Les <strong>de</strong>ux fonctions logit et exponentielles (raking ratio) conduisent à <strong><strong>de</strong>s</strong> poids assezproches dans la mesure où les bornes choisies sont inactives (1). La différence mesuréeen écart type du rapport <strong><strong>de</strong>s</strong> poids ne dépasse pas 0.06. En revanche, les poids finauxdiffèrent notablement plus lorsqu'on oppose <strong>de</strong>ux versions <strong>de</strong> la métho<strong>de</strong> 2 avec uncalage réalisé à l'ai<strong>de</strong> <strong>de</strong> l'une <strong><strong>de</strong>s</strong> <strong>de</strong>ux fonctions logit ou exponentielles d'une part, etlinéaire tronquée d'autre part. L'écart est <strong>de</strong> 0.13 . Il n'est pas dû aux bornes qui sontinactives elles aussi dans ce cas. La sensibilité <strong><strong>de</strong>s</strong> résultats au choix entre linéairetronquée d'une part et exponentielle ou logit d'autre part est en rapport direct entre lesdifférences entre ces trois formes fonctionnelles sur les plages <strong>de</strong> valeurs <strong><strong>de</strong>s</strong> quantitésxb*. (sur lesquelles varient xb*). Cette différence n'est pas neutre lorsqu'on la compareà l'ordre <strong>de</strong> gran<strong>de</strong>ur <strong>de</strong> la correction globale qui est <strong>de</strong> 0.4(I) on sait en effet que la fonction exponentielle est obtenue en faisant U---#0 et L-->oa dans la fonctionlogit.d/ choix <strong>de</strong> F :Les mêmes remarques s'appliquent pour la fonction F.e/ choix <strong>de</strong> métho<strong><strong>de</strong>s</strong> :Les différences entre les pondérations obtenues en utilisant une version <strong>de</strong> la métho<strong>de</strong>1 et une version <strong>de</strong> la métho<strong>de</strong> 2 sont en rapport direct avec les choix <strong>de</strong> fonctionséffectués dans les <strong>de</strong>ux versions comparées.L'égalité <strong><strong>de</strong>s</strong> <strong>de</strong>ux métho<strong><strong>de</strong>s</strong> dans le cas exponentiel repose en effet sur l'égalité (R)G(a)+F*(b)=F(a+b) lorsque G=F*=F=exp. Dans ce cas en effet, les <strong>de</strong>ux "trajets"empruntés par les <strong>de</strong>ux métho<strong><strong>de</strong>s</strong> sont les mêmes. Tout se passe comme si les résultatstraduisaient cette "distance plus ou moins gran<strong>de</strong> <strong><strong>de</strong>s</strong> choix <strong>de</strong> (G,F*,F) à la relation(R).Ainsi,un choix (logit, ratio, ratio) donne une différence <strong>de</strong> 0.02.un choix (logit, ratio, logit calage) donne une différence <strong>de</strong> 0.05.un choix (logit, logit calage, ratio) donne une différence <strong>de</strong> 0.033un choix (logit, logit calage, logit calage) donne une différence <strong>de</strong> 0.065un choix (logit, linéaire tronquée , ratio) donne une différence <strong>de</strong> 0.166un choix (logit, linéaire tronquée , logit calage) donne une différence <strong>de</strong> 0.2un choix (logit, linéaire tronquée, linéaire tronquée) donne une différence <strong>de</strong>0.14.36 INSEE Métho<strong><strong>de</strong>s</strong> n° 56-57-58


un choix (logit, ratio, linéaire tronquée) donne une différence <strong>de</strong> 0.136un choix (logit, logit calage, linéaire tronquée) donne une différence <strong>de</strong> 0.129Dans cet exemple, le choix <strong>de</strong> métho<strong><strong>de</strong>s</strong> n'est pas neutre dans tous les cas si on lecompare à l'ordre <strong>de</strong> gran<strong>de</strong>ur <strong><strong>de</strong>s</strong> corrections appliquées pour l'une quelconque <strong><strong>de</strong>s</strong>métho<strong><strong>de</strong>s</strong> : les différences ne sont pas négligeables lorsque la fonction linéaireintervient dans l'un au moins <strong><strong>de</strong>s</strong> termes <strong>de</strong> la comparaison. Elles sont néamoinsexactement comparables aux différences que l'on trouve lorsque l'on compare <strong>de</strong>uxversions <strong>de</strong> la métho<strong>de</strong> n°2.Tout se passe comme si le choix <strong>de</strong> métho<strong>de</strong> n'avait pas plus d'influence sur lespondérations finales que le choix <strong><strong>de</strong>s</strong> fonctions dans l'application <strong>de</strong> la métho<strong>de</strong> vali<strong>de</strong>.Tous ces résultats sont évi<strong>de</strong>mment relatifs à ce cas particulier et découlent du fait queles corrections pour non réponse sont <strong>de</strong>ux fois moins importantes que les correctionspour erreur d'échantillonnage.2-4-2 comparaison au niveau agrégé :Nous nous sommes ensuite intéressés à l'influence <strong><strong>de</strong>s</strong> choix <strong>de</strong> métho<strong><strong>de</strong>s</strong> effectués auniveau <strong>de</strong> redressement sur l'estimation et donc sur les résultats <strong>de</strong> l'enquêteproprement dits. Pour les résultats agrégés, nous avons trouvé que l'influence <strong><strong>de</strong>s</strong> choixopérés au niveau du redressement étaient négligeables : en effet, l'influence <strong>de</strong> laprocédure <strong>de</strong> redressement ne dépasse pas 0.1 point sur les pourcentages calculés pourla répartition <strong><strong>de</strong>s</strong> variables qualitatives et moins <strong>de</strong> 0.4% <strong>de</strong> différence sur lesmoyennes calculées pour les variables quantitatives. Ainsi, on obtient que l'influence duchoix <strong>de</strong> la métho<strong>de</strong> usuelle plutôt que <strong>de</strong> la métho<strong>de</strong> en <strong>de</strong>ux étapes est tout aussinégligeable que l'influence du choix <strong>de</strong> la fonction <strong>de</strong> calage. Les calculs à un niveaumoins agrégé restent à poursuivre et pourraient conduire à une conclusion différente.2-4-3 conclusion :Toutes ces conclusions restent fragiles et attachées au cas particulier <strong>de</strong> l'enquêteconsommation alimentaire pour laquelle la plupart <strong><strong>de</strong>s</strong> facteurs explicatifs <strong>de</strong> la nonréponse sont pris en compte dans le calage ( ie on n'a pas mis en évi<strong>de</strong>nce <strong>de</strong> facteurexplicatif supplémentaire important <strong>de</strong> non réponse par rapport au facteurs introduitsnaturellement dans le calage).Des simulations en cours viendront compléter ces résultats <strong>de</strong> façon à leur donner uneportée plus générale et à les infirmer le cas échéant.Corrections pour la non réponse 37


ANNEXE 1:information disponible pour l'ensemble <strong><strong>de</strong>s</strong> ménages tirés:a/ logement enquêté en 1982, BI :variables <strong>de</strong> l'exploitation exhaustive du RP82, information relative à lasituation <strong>de</strong> 1982 du ménage qui occupait ce logement en 1982i<strong>de</strong>ntifiant:- région- département- commune- arrondissement- canton- vague d'enquêtenuméro <strong>de</strong> fiche adresssetype d'habitat:- catégorie <strong>de</strong> commune rural/urbain et nombred'habitants état matrilmonial du chef <strong>de</strong> ménage- nombre <strong>de</strong> logements par catégories en 1982:principales, secondaires, vacants- appartenance à une ville nouvellecaractéristiques du ménage *:- nombre <strong>de</strong> personnes par tranche d'âge- nombre <strong>de</strong> personnes actives du ménage- nationalité du chef <strong>de</strong> ménage (français/étranger)- catégorie socio-professionnelle du chef <strong>de</strong> ménage- statut du chef <strong>de</strong> ménage- âge détaillé du chef <strong>de</strong> ménage- sexe du chef <strong>de</strong> ménageréalisation <strong>de</strong> l'enquête:- service enquêteur DR- nombre d'enquêtes réalisées dans la commune à chaque- vagueb/ logement construit <strong>de</strong>puis 1982, BI- région- commune- département- vague- date d'achèvement du logement- maître d'oeuvre- catégorie <strong>de</strong> logement38 INSEE Métho<strong><strong>de</strong>s</strong> n' 56-57-58


ANNEXE 2 : DENIONSTRATION DE L'UNICITE DE LA SOLUTION DESEQUATIONS DE CALAGE :L'égalité <strong><strong>de</strong>s</strong> <strong>de</strong>ux métho<strong><strong>de</strong>s</strong> <strong>de</strong> redressement repose sur l'unicité <strong>de</strong> la solution <strong><strong>de</strong>s</strong>équations x,d, exp(x,a) = X que nous allons démontrer en reprenant!Erl'interprétation géométrique vue en 1-7.Il est en effet équivalent <strong>de</strong> résoudre > x,d, exp(x,a) = X en a ou <strong>de</strong> rechercher!Grl'intersection- <strong>de</strong> la courbe paramétrée définie dans par w = d, exp(x,a)et - du sous-espace affine <strong>de</strong> dimension m-k défini dans 91"' par ( w = XSupposons que ces équations admettent au moins <strong>de</strong>ux solutions c'est à dire qu'il existeau moins <strong>de</strong>ux points d'intersection dans 91"'. Notons Al et A2 les <strong>de</strong>ux valeurs duparamètre a associé. On a lx, exp(x, Al) = X = x, exp(x, A2)Soit h la fonction définie <strong>de</strong> [0,1] dans 91 parh(l) exp(x,A1-1-t(A2 — AI)) (Al— A2)h est continue sur [0,1] et dérivable sur ]0,1[ Or h(0)=-1(1). En appliquant le théorème<strong>de</strong> Rolle on obtient que h s'annule en un point <strong>de</strong> l'intervalle ouvert 10,1[ Or, la dérivée<strong>de</strong> h ne peut s'annuler. En effet, exprimons la dérivée <strong>de</strong> h en un point t quelconque :h' (t) = x,(Al- A2)x, expk,Al+t(Al- A2)] (Al- A2) --- (A 1 - A2)r exp[x,AL + t(Al - A2)],ErPuisque A1=A2, il existe une composante I sur laquelle Al et A2 différent c'est à direAl, A2 1 . h'(t) est donc toujours strictement positive puisque les variables auxiliairessont supposées non nulles et donc en particulier la 'eine variable est non nulle.Corrections pour la non réponse 39


ANNEXE 3 : CAS OU LE CALAGE REPOSE SUR UNE SEULE VARIABLEQUALITATIVE : LES DEUX METHODES COINCIDENT ET REALISENTUNE POSTSTRATIFICATIONSupposons que l'on effectue les redressements sur la base d'une variable qualitative x*à k modalités. Les variables du redressement sont les k variables indicatrices associéesaux k modalités. Les paramétrages en b, F(x,b) sont tous équivalents puisu'ilsdéfinissent exactement un paramètre pour chaque modalité. La fonction F(x,b) vauten effet F(b,) lorsque x* prend la 1 ème modalité. On utilisera donc le paramétrage pargroupe équivalent.le redressement en <strong>de</strong>ux étapes <strong>de</strong>vientlère étape : correction pour non réponse :la paramétrisation p, = G(x,c) correspond d'après la remarque qui précè<strong>de</strong> à unmodèle <strong>de</strong> réponse homogène par groupe, c'est à dire : p, = p, lorsque x* prend lalème modalité. Soit r, (resp s, ,U,), l'ensemble <strong><strong>de</strong>s</strong> répondants (resp <strong><strong>de</strong>s</strong> individus tirés,<strong>de</strong> la population totale) pour lesquels x* prend la 1 ème modalité. Les probabilités <strong>de</strong>réponse vont être estimées par les taux <strong>de</strong> réponse observés dans chaque groupe s,. Onobtient donc /3, = 171' —n,2ème étape : correction pour erreur d'échantillonnage : calageLes équations <strong>de</strong> calage vont donner une correction multiplicative constante a, danschaque groupe r, d'après la remarque sur l'équivalence <strong><strong>de</strong>s</strong> paramétrages. Elless'écrivent :€rn,= N, où N, représente l'effectif <strong>de</strong> U,Les nouveaux poids à l'issue du redressement par la métho<strong>de</strong> en <strong>de</strong>ux étapes sont doncd N.cx. ' dans le groupe r, Il est facile <strong>de</strong> voir qu'il ne dépen<strong>de</strong>nt pas <strong>de</strong>: din ,rEril'étape <strong>de</strong> correction pour non réponse. En particulier, ils ne dépen<strong>de</strong>nt pas <strong>de</strong> lamétho<strong>de</strong> d'estimation <strong><strong>de</strong>s</strong> probabilités p,.40 INSEE Métho<strong><strong>de</strong>s</strong> n° 56-57-58


Le redressement en une étape fait intervenir quant à lui une correction multiplicative<strong><strong>de</strong>s</strong> poids y, déterminée par les équationsEd,Y = N1E/Les poids après redressement s'écrivent donc d,* = d,y , = d 'd, dans le groupe ri etles <strong>de</strong>ux métho<strong><strong>de</strong>s</strong> coinci<strong>de</strong>nt.L'estimateur associé pour une variable y dont on veut estimer le total s'écrit := Id, *y, =Lorsque l'échantillon a été obtenu par un sondage aléatoire simple sans remise, onobtient := N il,/ c'est à dire l'estimateur poststratifié.Corrections pour la non réponse 41


BIBLIOGRAPHIE :non-réponse :J.C.DEVILLE, F.DUPONT : non-réponse : principes et métho<strong><strong>de</strong>s</strong>. Journées <strong>de</strong><strong>méthodologie</strong> décembre 1993C.E.SARNDAL,B.SWENSSON,J.WRETMAN : Mo<strong>de</strong>l assisted surveysampling(Springer verlag,1991)J.M.GROSBRAS : Métho<strong><strong>de</strong>s</strong> <strong>statistique</strong>s <strong><strong>de</strong>s</strong> sondages, (économica,1987)OH et SCHEUREN 1983 : weighting adjustment for unit non response. Incompletedata in sample surveys tome 2, 1983 aca<strong>de</strong>mic pressestimation par calage :J.C.DEVILLE,C.E.SARNDAL : Calibration estimators in survey sampling (Journalof the American Statistical Association vo147 n°418,juin 1992)J.C.DEVILLE, C.E.SARNDAL, O.SAUTORY : Generalized Raking Procedures insurvey sampling (Journal of the American Statistical Association, septembre 1993,volume 88 n°423)O.SAUTORY : Redressement d'échantillons d'enquêtes auprès <strong><strong>de</strong>s</strong> ménages parcalage sur marges (Document <strong>de</strong> travail <strong>de</strong> la Direction <strong><strong>de</strong>s</strong> StatistiquesDémographiques et Sociales n°F9103).O.SAUTORY : La macro SAS CALMAR: redressement d'un échantillon par calagesur marges. (Document <strong>de</strong> travail <strong>de</strong> la Direction <strong><strong>de</strong>s</strong> Statistiques Démographiques etSociales n°F9108). Le document relatif à la nouvelle version <strong>de</strong> CALMAR est en cours<strong>de</strong> rédaction.F.DUPONT : redressements alternatifs en présence <strong>de</strong> plusieurs niveaux d'informationauxiliaire note n°608/f010 du 10 novembre 1993.mise en oeuvre <strong><strong>de</strong>s</strong> modèle économétriques sur variables qualitatives sous SAS :O.VERGER, M.IVIARPSAT L'économétrie et l'étu<strong>de</strong> <strong><strong>de</strong>s</strong>comportements:présentation et mise en oeuvre <strong>de</strong> modèles <strong>de</strong> regression qualitatifs(Direction <strong><strong>de</strong>s</strong> Statistiques Démographiques et Sociales n°F9110, ouvrage collectif)42 INSEE Métho<strong><strong>de</strong>s</strong> n° 56-57-58


L'économétrie<strong><strong>de</strong>s</strong> modèles <strong>de</strong> durée avec SAS.Présentation et mise en oeuvreC. Cases IS. Lollivier 21 IntroductionL'analyse économétrique <strong><strong>de</strong>s</strong> données <strong>de</strong> durée est une discipline assez récente.Les premiers manuels méthodologiques appliqués aux données économiques datent,en effet, du début <strong><strong>de</strong>s</strong> années 80, quand un développement suffisant aussibien <strong>de</strong> la théorie <strong><strong>de</strong>s</strong> probabilités (processus), <strong>de</strong> l'analyse <strong>statistique</strong> et <strong><strong>de</strong>s</strong>moyens <strong>de</strong> calcul informatiques ont été atteints.L'analyse <strong><strong>de</strong>s</strong> durées a d'abord été celle <strong><strong>de</strong>s</strong> durées <strong>de</strong> vie, et a été menéepar les démographes et les actuaires. Elle est également très utile en biométrieet en <strong>statistique</strong> médicale, où elle sert à modéliser et à comparer <strong><strong>de</strong>s</strong> survies<strong>de</strong> mala<strong><strong>de</strong>s</strong> suivant différents traitements, <strong><strong>de</strong>s</strong> durées <strong>de</strong> rémission... Un autredomaine d'application est traditionnellement celui <strong><strong>de</strong>s</strong> contrôle <strong>de</strong> fiabilité <strong>de</strong>matériels (taux <strong>de</strong> pannes <strong>de</strong> machines ou <strong>de</strong> systèmes). En économie, lesdomaines d'application privilégiés <strong><strong>de</strong>s</strong> modèles <strong>de</strong> durées sont les durées <strong>de</strong>chômage ou d'emploi <strong><strong>de</strong>s</strong> individus, mais ils peuvent être appliqués à <strong><strong>de</strong>s</strong> sujetstrès variés (durée <strong>de</strong> vie <strong><strong>de</strong>s</strong> entreprises, durée <strong>de</strong> remboursement d'un emprunttenant compte <strong><strong>de</strong>s</strong> remboursements anticipés...).Le présent document <strong>de</strong> travail vise à donner les éléments nécessaires àla modélisation <strong>de</strong> durées à l'ai<strong>de</strong> du logiciel SAS. Il comporte d'abord uneprésentation synthétique <strong><strong>de</strong>s</strong> principaux outils probabilistes nécessaires, et <strong><strong>de</strong>s</strong>gran<strong><strong>de</strong>s</strong> catégories <strong>de</strong> modèles économétriques utilisés, ainsi que <strong><strong>de</strong>s</strong> élémentssur les métho<strong><strong>de</strong>s</strong> d'estimation <strong>de</strong> ces modèles. II détaille ensuite l'utilisation <strong><strong>de</strong>s</strong>diverses procédures SAS qui peuvent être utilisées pour réaliser ces estimations,en les illustrant d'exemples.I CREST2CRESTDonnées <strong>de</strong> survie 43


2 Caractériser la loi <strong><strong>de</strong>s</strong> variables <strong>de</strong> duréeA priori, on pourrait traiter une variable <strong>de</strong> durée comme n'importe quelle variablealéatoire quantitative continue, à ceci près qu'elle prend nécessairementune valeur réelle positive. Ce n'est pas une caractéristique très discriminante,puisqu'on la retrouve sur d'autres thèmes <strong>de</strong> l'analyse économique, comme parexemple celle <strong><strong>de</strong>s</strong> salaires. La référence habituelle à la loi normale nécessite alorsune transformation sur les données, en en prenant par exemple le logarithme.Ainsi une <strong><strong>de</strong>s</strong> lois <strong>de</strong> base en économétrie <strong><strong>de</strong>s</strong> salaires est la loi log-normale, quirevient à faire une hypothèse <strong>de</strong> normalité sur le log <strong>de</strong> la variable étudiée. Cettedistribution est, on le verra, beaucoup moins centrale en économétrie <strong><strong>de</strong>s</strong> durées.La particularité <strong><strong>de</strong>s</strong> données <strong>de</strong> durées est qu'elles peuvent s'interpréterfacilement comme résultant d'un processus stochastique sous-jacent. Ce processusrend compte <strong><strong>de</strong>s</strong> dates <strong>de</strong> changements d'état d'un individu (vie et mort,emploi et chômage, être parent d'un enfant ou <strong>de</strong> <strong>de</strong>ux enfants...). La durée d'unétat est alors simplement l'écart entre date <strong>de</strong> début et date <strong>de</strong> fin d'un état.Les caractéristiques <strong>de</strong> ce processus conduisent alors à définir <strong>de</strong> gran<strong><strong>de</strong>s</strong> classes<strong>de</strong> lois <strong>de</strong> probabilité pour les durées. De plus, certains outils probabilistes particuliers,comme la fonction <strong>de</strong> survie ou la fonction <strong>de</strong> hasard, prendront uneplace plus déterminante dans l'analyse que l'habituelle <strong>de</strong>nsité <strong>de</strong> probabilité,car ils ont l'avantage <strong>de</strong> s'interpréter très simplement.Présentons d'abord les trois fonctions les plus utilisées pour caractériserla loi d'une durée. Pour cela, on notera T la variable <strong>de</strong> durée,f(t) et F(t) sa <strong>de</strong>nsité <strong>de</strong> probabilité et sa fonction <strong>de</strong> répartition.On appelle fonction <strong>de</strong> survie S(t) la probabilité que la durée soit plusgran<strong>de</strong> que t, soit00S(t) f (u) du = 1— F(t).On appelle fonction <strong>de</strong> hasard h(t) la probabilité que la durée soit compriseentre t et t dt, sachant qu'elle est plus gran<strong>de</strong> que t, soith(t) = s(t2). f(h(t) représente le taux instantané <strong>de</strong> sortie <strong>de</strong> l'état que l'on observe. Si, parexemple, on mesure <strong><strong>de</strong>s</strong> durées <strong>de</strong> chômage, h(t) représentera le taux <strong>de</strong> sortie<strong>de</strong> chômage à la date t, c'est -à-dire la probabilité <strong>de</strong> sortir du chômage dansun très petit intervalle <strong>de</strong> temps après t, sachant que l'on était chômeur en t. Si44 INSEE Métho<strong><strong>de</strong>s</strong> n° 56-57-58


l'on s'intéresse à la durée <strong>de</strong> vie <strong><strong>de</strong>s</strong> individus, h(t) sera un risque <strong>de</strong> mortalitéà un âge donné.Enfin, la durée moyenne restante est l'espérance <strong>de</strong> la durée qui restesachant que l'on a déjà atteint t :r(t) = E(T — t IT > t).C'est par exemple l'espérance <strong>de</strong> vie à un âge donné, dans le cas du <strong>de</strong>rnierexemple.Chacune <strong>de</strong> ces trois fonctions caractérise la loi d'une variable <strong>de</strong> durée, aumême titre que la <strong>de</strong>nsité <strong>de</strong> probabilité. La plus utilisée est la fonction <strong>de</strong>hasard. C'est en général cette fonction que chercheront à estimer les modèleséconométriques les plus simples. Elle permet <strong>de</strong> caractériser la probabilitéimmédiate <strong>de</strong> changer d'état en t.Il existe <strong><strong>de</strong>s</strong> relations simples entre <strong>de</strong>nsité survie, hasard et durée moyennerestante. Ainsi,f(t)h(t) = .5-7(t-i. = --di log S(t)d'oùtS(t) = exp(— f h(u)du).oSelon les cas étudiés, les fonctions <strong>de</strong> hasard, ou taux <strong>de</strong> sortie instantanés,peuvent avoir <strong><strong>de</strong>s</strong> formes très différentes. Si l'on considère la durée <strong>de</strong> vie <strong><strong>de</strong>s</strong>hommes en France, le hasard représente simplement le taux <strong>de</strong> mortalité. Saforme est en U, avec <strong>de</strong>ux petites "bosses", l'une vers 18-22 ans, l'autre vers40 ans. La partie décroissante aux tous premiers âges <strong>de</strong> la vie s'explique parla fin <strong>de</strong> la pério<strong>de</strong> <strong>de</strong> mortalité néo-natale et infantile, le premier pic par lesacci<strong>de</strong>nts <strong>de</strong> la circulation, le second par les maladies cardio-vasculaires. Enfin,le taux <strong>de</strong> mortalité recommence à augmenter régulièrement aux âges élevés.La représentation d'un tel type <strong>de</strong> fonction par une loi paramétrée simple n'est,a priori, pas évi<strong>de</strong>nte...Pour d'autres phénomènes étudiés, comme la durée <strong>de</strong> chômage, cettemodélisation peut être plus simple. Ainsi les fonctions <strong>de</strong> hasard observéesdans ce cas sont parfois supposées croissantes, puis décroissantes (en raison,par exemple, d'une intensité variable <strong>de</strong> recherche d'emploi), ou bien simplementdécroissantes (en raison, par exemple, d'une réticence <strong><strong>de</strong>s</strong> employeurs àembaucher <strong><strong>de</strong>s</strong> chômeurs <strong>de</strong> longue durée).Données <strong>de</strong> survie 45


3 Les lois <strong>de</strong> probabilité <strong>de</strong> baseLa loi <strong>de</strong> référence pour les modèles <strong>de</strong> durée est la loi exponentielle. Ellea une propriété importante : elle est la seule à avoir un hasard constant. Lavaleur <strong>de</strong> ce hasard est le seul paramètre <strong>de</strong> la loi. Cela signifie qu'à n'importequelle date, la probabilité <strong>de</strong> changer d'état est la même. C'est la raison pourlaquelle on dit du modèle exponentiel qu'il est "sans mémoire" 1. La valeur duhasard est le seul paramètre <strong>de</strong> la loi. Ses caractéristiques sont les suivantes :h(t) =S(t) = exp(--0t)f(t) = O exp(-0t)r(t) = 1/0.La loi <strong>de</strong> Weibull généralise la loi exponentielle, puisque la durée Y estsupposée telle que Y" suit une loi exponentielle <strong>de</strong> paramètre O. C'est donc uneloi à <strong>de</strong>ux paramètres a, G telle que :h(t) = aOtce-1S(t) = exp(-0ta)f(t) = aOte —lexp(-0ta).Le hasard <strong>de</strong>'la loi <strong>de</strong> Weibull est monotone, croissant si a > 1 et décroissantsi a < 1. De plus, la loi <strong>de</strong> Weibull englobe la loi exponentielle pour a = 1.La loi log-normale et la loi log-logistique permettent <strong>de</strong> représenter <strong><strong>de</strong>s</strong>hasards avec un mo<strong>de</strong> (croissants, puis décroissants). La durée T sera alors tellelogqueT—msuit respectivement une loi normale N(0, 1) ou une loi logistique. Lehasard <strong>de</strong> la loi log-normale a une expression analytique inconnue, qui dépenddu ratio <strong>de</strong> Mils :h(t) = to.(i_ 4)(1.orn a )),où qf et (I) sont la <strong>de</strong>nsité et la fonction <strong>de</strong> répartition (calculable numériquementseulement) <strong>de</strong> la loi normale centrée réduite.Pour éviter <strong>de</strong> manipuler une forme aussi complexe, on préfère le plus souventutiliser la loi log-logistique, qui est très proche <strong>de</strong> la loi log-normale, et dont lehasard s'écrit :clILe processus sous-jacent est markovien.46 INSEE Métho<strong><strong>de</strong>s</strong> n° 56-57-58


Ot( 11°)-1h(t) = cr(Bel a + 1)'où 0 = exp(—m/o-). Pour o- < 1, le hasard présente un mo<strong>de</strong> ; pour « > 1, ilest monotone décroissant, avec ou sans asymptote en O.On peut construire d'autres familles <strong>de</strong> lois. Pour plus <strong>de</strong> détails, se référerà la bibliographie en fin <strong>de</strong> volume.Données <strong>de</strong> survie 47


4 Les grands principes <strong>de</strong> l'économétrie <strong><strong>de</strong>s</strong> durées4.1 Modèle structurel, modèle réduitPour estimer un modèle <strong>de</strong> durée, la métho<strong>de</strong> la plus simple est d'observer <strong><strong>de</strong>s</strong>durées et <strong>de</strong> procé<strong>de</strong>r directement à l'estimation <strong><strong>de</strong>s</strong> paramètres <strong>de</strong> la loi <strong>de</strong>probabilité <strong>de</strong> la variable aléatoire, par exemple sa fonction <strong>de</strong> hasard. Maiscette fonction s'interprète le plus souvent comme résultant d'un comportementparticulier. Ce sont, en fait, les caractéristiques <strong>de</strong> ce comportement qui servent,en <strong>de</strong>rnier ressort, à comprendre la distribution <strong><strong>de</strong>s</strong> durées étudiées. Onpeut donc aussi chercher à modéliser directement ces comportements. Dans lepremier cas, on dit que l'on estime la forme réduite du modèle. Dans le second,on en analyse la forme structurelle. Ce sont <strong><strong>de</strong>s</strong> estimations <strong>de</strong> formes réduitesdont traitera ce fascicule.Pour illuster la différence entre un modèle structurel et un modèle réduit,prenons l'exemple classique <strong>de</strong> l'analyse <strong><strong>de</strong>s</strong> durées <strong>de</strong> chômage à l'ai<strong>de</strong> d'unmodèle <strong>de</strong> recherche d'emploi. On suppose qu'un individu au chômage reçoit<strong><strong>de</strong>s</strong> offres d'emploi à chaque moment avec une probabilité constante A. Cesoffres sont caractérisées par leur salaire w qui est tiré aléatoirement dans unedistribution <strong>de</strong>.fonction <strong>de</strong> répartition F, connue à l'avance par le chômeur.A chaque date, l'individu reçoit une in<strong>de</strong>mnité b s'il est au chômage. Il peutrefuser ou accepter une offre, mais ne revient jamais sur une décision pesée. Onsuppose que sa stratégie consiste à maximiser son espérance <strong>de</strong> revenu sur unedurée <strong>de</strong> vie infinie. Une fois accepté, l'emploi est définitif et le salaire ne changeplus. On montre alors que la stratégie optimale du chômeur est d'accepter uneoffre seulement si son salaire dépasse un montant minimum appelé salaire <strong>de</strong>réserve, qui est une fonction assez complexe <strong>de</strong> tous les paramètres A, b, F et <strong><strong>de</strong>s</strong>on taux d'actualisation2. La fonction <strong>de</strong> hasard s'écrit alors h (t) = A(1— F(e)).Dans ce cas simple, elle ne dépend pas <strong>de</strong> t : le modèle est dit stationnaire. Si>i ou b varie avec t, ou si la durée <strong>de</strong> vie est finie, le salaire <strong>de</strong> réserve et lehasard dépendront <strong>de</strong> t. Un modèle structurel estimera séparément A, b, F. Unmodèle réduit essaiera d'estimer globalement la fonction <strong>de</strong> hasard. La formedu hasard et son sens <strong>de</strong> variation avec t est une <strong><strong>de</strong>s</strong> questions fondamentalesen économétrie <strong><strong>de</strong>s</strong> durées.2e = 6 + f7 (tu — e)dF(10)48 INSEE Métho<strong><strong>de</strong>s</strong> n° 56-57-58


4.2 Modèle paramétrique, non paramétrique,semi-pararnétriqueDans l'exemple précé<strong>de</strong>nt, plusieurs stratégies sont possibles pour l'estimationdirecte <strong>de</strong> la fonction <strong>de</strong> hasard. On peut supposer que la variable <strong>de</strong> duréesuit une loi <strong>de</strong> probabilité donnée, par exemple une loi exponentielle, une loi <strong>de</strong>Weibull...On peut alors écrire la vraisemblance <strong>de</strong> l'échantillon observé, et estimerses paramètres par maximisation. Le modèle est alors dit paramétrique.On peut aussi introduire dans le modèle <strong><strong>de</strong>s</strong> variables exogènes qui déterminentla valeur <strong>de</strong> certains paramètres (voir ci-<strong><strong>de</strong>s</strong>sous). Des exemples d'écriture <strong>de</strong>vraisemblance seront traités dans la section 6.Certaines métho<strong><strong>de</strong>s</strong> permettent <strong>de</strong> s'affranchir d'une spécification particulière<strong>de</strong> la loi <strong><strong>de</strong>s</strong> durées. En effet, celles-ci peuvent être trop contraignantes (difficulté<strong>de</strong> modéliser un hasard à plusieurs mo<strong><strong>de</strong>s</strong>, par exemple), ou trop peu robustes(les résultats peuvent être très différents selon la spécification choisie). Selonque l'on laisse libre l'ensemble ou une partie <strong>de</strong> la spécification <strong>de</strong> la loi <strong>de</strong> ladurée, on parlera <strong>de</strong> modèles serni-paramétriques ou non paramétriques.Ils sont cependant parfois plus difficiles à programmer et nécessitent souventplus <strong>de</strong> données. Cependant, certains modèles courants peuvent être traitéstrès simplement avec <strong><strong>de</strong>s</strong> procédures SAS. Il s'agit en particulier <strong>de</strong> l'estimateurnon paramétrique le plus courant, dit <strong>de</strong> Kaplan-Meier (FROC LIFETEST),et du modèle semi-paramétrique <strong>de</strong> Cox (FROC PHREG), dont les gran<strong><strong>de</strong>s</strong>caractéristiques' seront décrites plus loin.4.3 Introduction <strong>de</strong> variables exogènesL'estimation <strong><strong>de</strong>s</strong> fonctions <strong>de</strong> hasard doit a priori s'effectuer sur <strong><strong>de</strong>s</strong> populationshomogènes. Si la population regroupe <strong><strong>de</strong>s</strong> catégories dont les lois <strong>de</strong> durées sontdifférentes, le risque est en effet <strong>de</strong> conclure faussement à une décroissance <strong>de</strong>la fonction <strong>de</strong> hasard. Le mécanisme qui mène à ce biais est connu sous le nom<strong>de</strong> "mover-stayer" : supposons un melange à part égales <strong>de</strong> <strong>de</strong>ux populations àhasards (ou risques) constants, mais différents. Au fil du temps, les individus<strong>de</strong> la population <strong>de</strong> risque le plus élevé sortant plus vite <strong>de</strong> l'état observé, lapopulation <strong><strong>de</strong>s</strong> survivants comportera <strong>de</strong> plus en plus d'individus à risque faible,et les sorties seront ainsi <strong>de</strong> moins en moins fréquentes.Pour éviter ce risque <strong>de</strong> mauvaise interprétation, il est possible <strong>de</strong> partagerl'échantillon observé en sous-échantillons (ou strates) les plus homogènes possibles.Par exemple, on peut envisager d'étudier séparément les durées <strong>de</strong> chômageselon le sexe, le diplôme et la classe d'âge. Procé<strong>de</strong>r ainsi suppose qu'il restedans chaque sous-échantillon suffisamment d'individus pour que l'estimateurconserve <strong>de</strong> bonnes propriétés asymptotiques. On peut aussi spécifier une formeDonnées <strong>de</strong> survie 49


paramétrique particulière dans laquelle les paramètres s'expriment en fonction<strong>de</strong> variables exogènes.Il existe plusieurs catégories <strong>de</strong> familles paramétriques qui permettent <strong>de</strong>procé<strong>de</strong>r ainsi. Les plus courantes sont les familles à hasard proportionnel etles familles à hasard accéléré.Dans les familles à hasard proportionnel, la fonction <strong>de</strong> hasard a pourforme générale :h(t) ho(t)0(X , 8).ho(t) est appelé "hasard <strong>de</strong> base", et 0(X,/3) est une fonction positive<strong><strong>de</strong>s</strong> exogènes X, étant un vecteur <strong>de</strong> paramètres. On choisit en général= exp(X/3). Le nom <strong>de</strong> cette famille <strong>de</strong> lois tient à ce que <strong><strong>de</strong>s</strong> valeursdifférentes <strong><strong>de</strong>s</strong> variables exogènes aboutissent à <strong><strong>de</strong>s</strong> valeurs proportionnelles duhasard. En particulier, si le hasard <strong>de</strong> base présente un mo<strong>de</strong>, ce sera le mêmepour tous les individus, ce qui peut être très restrictif. Le hasard <strong>de</strong> base peutêtre estimé par la métho<strong>de</strong> du maximum <strong>de</strong> vraisemblance en spécifiant uneforme paramétrique particulière, ou bien par une métho<strong>de</strong> non paramétrique(on parle alors d'une estimation semi-paramétrique pour h, voir plus loin ledétail d'une métho<strong>de</strong> : modèle <strong>de</strong> Cox).Dans les familles à hasard accéléré, la fonction <strong>de</strong> hasard a pour formegénérale :h(t , X , ,8) = ho [t exp(X ,8)] exp(X,a)Les variables exogènes ont alors un effet <strong>de</strong> paramètre d'échelle sur les durées :tout se passe comme si la durée T d'un individu <strong>de</strong> la "catégorie" X s'écrivaitTo exp(—X.P.), où To serait la durée <strong>de</strong> vie <strong>de</strong> la catégorie <strong>de</strong> référence. Toutse passe donc comme si le temps avançait plus ou moins rapi<strong>de</strong>ment pourles différents types d'individus. Cette écriture permet d'écrire simplement lesmodèles à durée <strong>de</strong> vie accélérée sous la forme :log T = —X + log ToCette écriture peut faire penser à un modèle <strong>de</strong> régression linéaire, où log Tojouerait le rôle <strong>de</strong> la perturbation. Le problème principal est que dans le casgénéral, cette "perturbation" n'est pas d'espérance nulle, et que les moindrescarrés ordinaires ne peuvent être appliqués pour estimer /3 que dans <strong><strong>de</strong>s</strong> castrès particuliers (pas <strong>de</strong> données censurées). Dans la plupart <strong><strong>de</strong>s</strong> cas, on doitspécifier la loi <strong>de</strong> log To et estimer par le maximum <strong>de</strong> vraisemblance. C'est lamétho<strong>de</strong> utilisée par la procédure LIFEREG <strong>de</strong> SAS (voir plus loin). Il existe<strong><strong>de</strong>s</strong> métho<strong><strong>de</strong>s</strong> semi-paramétriques qui évitent <strong>de</strong> spécifier une loi pour log To ,mais elles ne sont pas disponibles sous formes <strong>de</strong> procédures SAS.50 EVSEE Métho<strong><strong>de</strong>s</strong> n° 56-57-58


5 Problèmes particuliers5.1 Les données censuréesUne <strong><strong>de</strong>s</strong> particularités les plus fréquentes <strong><strong>de</strong>s</strong> données <strong>de</strong> durée est qu'elles sontrarement parfaitement observées. La pério<strong>de</strong> d'observation est en effet souventtrop courte pour mesurer les durées les plus longues. On parle alorsd'observations censurées. Le type <strong>de</strong> censure le plus fréquent est ainsi la"censure à droite". Supposons que l'on observe toutes les personnes entrantau chômage entre <strong>de</strong>ux dates T1 et T2. Pour les personnes ayant retrouvé unemploi en T2, la durée sera parfaitement observée. Pour les personnes toujoursau chômage en T2, on sait seulement que la durée <strong>de</strong> chômage est supérieure àce que l'on a observé (on parle alors d'une ancienneté <strong>de</strong> chômage). Si l'on netient pas compte <strong>de</strong> ce phénomène, la loi <strong>de</strong> durée que l'on estimera sera biaiséeet conduira à <strong><strong>de</strong>s</strong> espérances <strong>de</strong> durée plus courtes que la réalité.Il existe différents types <strong>de</strong> censure qui ne seront pas tous détaillés ici. Ilest en général assez simple <strong>de</strong> tenir compte <strong>de</strong> la censure si elle intervient <strong>de</strong>manière indépendante du mécanisme <strong>de</strong> sortie, c'est-à-dire si la loi <strong><strong>de</strong>s</strong> duréescensurées est bien la même que celle <strong><strong>de</strong>s</strong> durées non censurées. Les procéduresSAS présentées par la suite traitent toujours ces cas simples.5.2 Les fichiers <strong>de</strong> stockUn cas, lui aussi fréquent, mais non pris en compte dans les procédures SAS estcelui <strong><strong>de</strong>s</strong> échantillons construits à partir <strong>de</strong> fichiers <strong>de</strong> stock. Dans le cas <strong><strong>de</strong>s</strong>durées <strong>de</strong> chômage, par exemple, il est fréquent d'observer les durées d'individusse trouvant au chômage à la date <strong>de</strong> début <strong>de</strong> l'enquête (par exemple en tirantl'échantillon dans un fichier ANPE). Cette métho<strong>de</strong> <strong>de</strong> tirage <strong>de</strong> l'échantillon introduitun biais sur les durées observées, appelé biais <strong>de</strong> sélection endogène(stock sampling). Pour bien s'en persua<strong>de</strong>r, il suffit <strong>de</strong> raisonner sur l'ensemble<strong><strong>de</strong>s</strong> personnes entrées au chômage à une même date —e (on posera que la date <strong>de</strong>tirage <strong>de</strong> l'échantillon vaut 0). Parmi cette "cohorte", seuls figureront dans lesfichiers <strong>de</strong> chômeurs en 0 les individus dont la durée <strong>de</strong> chômage est plus gran<strong>de</strong>que e. Les autres auront quitté les fichiers auparavant. Pour chaque cohorted'entrants, la probabilité <strong>de</strong> figurer dans l'échantillon sera nulle pour les duréesles plus courtes. Ce mo<strong>de</strong> <strong>de</strong> sélection particulier conduit donc à surestimer lesdurées moyennes si l'on ne corrige pas <strong>de</strong> ce biais. Dans la pratique, cettesurestimation peut être très importante, et conduire à multiplier par2 ou 3 les espérances <strong>de</strong> durée. Il existe <strong><strong>de</strong>s</strong> métho<strong><strong>de</strong>s</strong> <strong>de</strong> correction, qui fontDonnées <strong>de</strong> survie 51


souvent <strong><strong>de</strong>s</strong> hypothèses fortes sur la stabilité <strong><strong>de</strong>s</strong> lois <strong>de</strong> durée pour l'ensemble<strong><strong>de</strong>s</strong> cohortes d'entrants. La plus simple à mettre en oeuvre est l'estimation parle maximum <strong>de</strong> vraisemblance conditionnel. Elle n'est cependant pas inclusedans les procédures SAS et nécessite d'utiliser ou <strong>de</strong> programmer complètementun algorithme <strong>de</strong> maximisation. La PROC NLIN peut être utilisée dans cecas, après avoir calculé formellement la vraisemblance et le score (vecteur <strong><strong>de</strong>s</strong>dérivées par rapport aux paramètres).5.3 L'hétérogénéité non observéeOn a vu précé<strong>de</strong>mment qu'il était nécessaire <strong>de</strong> procé<strong>de</strong>r à <strong><strong>de</strong>s</strong> estimationssur <strong><strong>de</strong>s</strong> populations homogènes ou bien d'inclure <strong><strong>de</strong>s</strong> variables exogènes dansla spécification <strong><strong>de</strong>s</strong> lois <strong>de</strong> durées. Le problème <strong>de</strong> l'hétérogénéité reste entierlorsqu'elle résulte <strong>de</strong> variables omises ou d'un caractère non observable <strong><strong>de</strong>s</strong>individus. Dans ce cas, on peut conclure faussement à. une décroissance duhasard avec t, et même obtenir <strong><strong>de</strong>s</strong> estimateurs biaisés pour les coefficients <strong><strong>de</strong>s</strong>variables exogènes incluses dans le modèle. Pour remédier à ce problème, on introduitgénéralement un facteur d'hétérogénéité multiplicatif y dans la fonction<strong>de</strong> hasard, pour lequel on spécifie une loi particulière <strong>de</strong> probabilité, discrète oucontinue. La vraisemblance du modèle peut alors être écrite en intégrant sur laloi <strong>de</strong> y, dont on estime les paramètres (et éventuellement le support, s'il s'agitd'une loi discrète) comme les autres éléments du modèle. Ce type <strong>de</strong> modèle,qui <strong>de</strong>vient assez courant en pratique, n'est pas non plus disponible en standarddans SAS.5.4 Les exogènes variant dans le tempsL'introduction d'exogènes dans le modèle n'a été envisagée que dans le cas oùelles mesurent <strong><strong>de</strong>s</strong> caractéristiques constantes au cours <strong>de</strong> la durée d'observation.Il est possible d'étendre le modèle au cas d'une variable x(t). Pour cela, il fautcréer autant <strong>de</strong> variables que <strong>de</strong> sous-pério<strong><strong>de</strong>s</strong> pendant lesquelles x est constante,c'est-à-dire conditionner le modèle par l'ensemble <strong><strong>de</strong>s</strong> valeurs <strong>de</strong> la variable. Celane pose pas <strong>de</strong> problème dans le principe, mais le modèle peut <strong>de</strong>venir difficile àestimer si l'on introduit plusieurs variables <strong>de</strong> ce type, le nombre <strong>de</strong> coefficientsà estimer pouvant alors <strong>de</strong>venir très important.52 INSEE Métho<strong><strong>de</strong>s</strong> n° 56-57-58


6 Estimation et tests dans les modèlesparamétriquesL'une <strong><strong>de</strong>s</strong> difficultés d'estimation <strong><strong>de</strong>s</strong> modèles <strong>de</strong> durées est l'impossibilité d'appliquerles modèles <strong>de</strong> régression habituels, sauf dans <strong><strong>de</strong>s</strong> cas très particuliers. Ona vu précé<strong>de</strong>mment que l'on pouvait penser à écrire un modèle <strong>de</strong> la forme :log T = X3 + U,où U est une perturbation. Mais les moindres carrés ordinaires ne sontgénéralement pas convergents, sauf dans le cas où les données observées ne sontpas censurées. La métho<strong>de</strong> utilisée est donc presque toujours le maximum <strong>de</strong>vraisemblance.6.1 Ecriture <strong>de</strong> la vraisemblance dans les modèles <strong>de</strong> duréeSupposons que, dans le cas d'un échantillon <strong>de</strong> taille N, soient observées <strong><strong>de</strong>s</strong>durées, complètes ou censurées, ti pour chaque individu i = 1, ...N. Cela revientà disposer, en plus <strong>de</strong> la valeur <strong>de</strong> ti, d'une variable indicatrice <strong>de</strong> censure Ci,telle que ci = I si la durée ti est censurée, et 0 sinon.La vraisemblance du modèle s'écrit alors :L = H Atiy.s(ti)(1-..).i=iEn effet, la probabilité qu'une durée soit censurée en ti , donc supérieure où égaleà ti est la valeur <strong>de</strong> la survie S(ti).La log-vraisemblance a donc pour formelog L = ci log f(ti) ( — ci) log S(ti).i=1 i=1Cette expression peut se simplifier en utilisant la relation h(ti) = f(ti)IS(ti),ce qui donnelog L = ci log h(ti) + log S(ti).Lorsque l'on spécifie une forme particulière pour h et donc pour S, avecéventuellement introduction <strong>de</strong> variables exogènes, on obtient simplement lavaleur <strong>de</strong> la fonction à maximiser en calculant log h(ti) et log S(ti).Données <strong>de</strong> survie 53


6.2 Algorithmes <strong>de</strong> maximisationLes procédures SAS utilisent <strong><strong>de</strong>s</strong> algorithmes <strong>de</strong> résolution numérique pourmaximiser la log-vraisemblance. Le plus utilisé est l'algorithme <strong>de</strong> Newton-Raphson, dont le principe est rappelé ci-<strong><strong>de</strong>s</strong>sous. La procédure NLIN permet,<strong>de</strong> plus, <strong>de</strong> choisir entre différents algorithmes <strong>de</strong> calcul, plus ou moins précisou rapi<strong><strong>de</strong>s</strong> selon les cas (voir sections 9 et 10).Pour maximiser la log-vraisemblance log L = 1(p), il faut chercher une solution0* qui annule la dérivée <strong>de</strong> 1 par rapport à 0, également appelée vecteurdu score. Pour cela, l'algorithme <strong>de</strong> Newton-Raphson part d'une valeur initiale/3o, et résoud itérativement l'équation :+1 [821(apap,—181(5i )8,8Le second terme du membre <strong>de</strong> droite est appelé le pas <strong>de</strong> l'algorithme. Lesitérations se poursuivent jusqu'à ce que 1(f3j+1) —1(0i) soient très proches (pardéfaut, en général, dans les procédures SAS, l'écart entre les <strong>de</strong>ux fonctionsdoit être finalement inférieur à 10-4). De plus, il est vérifié à chaque étape que1(0i+1) — l(1i) > 0. Si ce n'est pas le cas, on recalcule un nouveau 0.i+1 enréduisant le pas.Il faut noter que, dans les cas où la vraisemblance n'est pas strictementconcave, on n'est nullement assuré <strong>de</strong> la convergence <strong>de</strong> l'algorithmevers le maximum cherché, puisqu'aucune condition <strong>de</strong> second ordre n'a étévérifiée dans un premier temps. Si l'on a <strong><strong>de</strong>s</strong> doutes, il est possible <strong>de</strong> fixer <strong><strong>de</strong>s</strong>valeurs initiales assez éloignées et d'effectuer plusieurs fois la maximisation afin<strong>de</strong> comparer les résultats. D'autre part, il est évi<strong>de</strong>nt que la convergence estbeaucoup plus rapi<strong>de</strong> si les valeurs initiales sont bien choisies, par exemple sielles sont le résultat d'une procédure d'estimation moins affinée.6.3 Propriétés <strong>de</strong> l'estimateurDe manière générale, l'estimateur du maximum <strong>de</strong> vraisemblance est asymtotiquementconvergent et normal, <strong>de</strong> variance asymptotique estimée:a21( /3i )1-/(e). [ 0flafl,—1La connaissance <strong>de</strong> cette loi asymptotique est essentielle pour effectuer <strong><strong>de</strong>s</strong>tests <strong>de</strong> spécification, comme nous le verrons ci-<strong><strong>de</strong>s</strong>sous.54 INSEE Métho<strong><strong>de</strong>s</strong> n° 56-57-58


6.4 Cas particulier d'un modèle <strong>de</strong> WeibullDans le cas d'un modèle <strong>de</strong> durée simple (sans sélection endogène), la logvraisemblances'écrit donc :log L = ci log h(ti) + log S(ti ),j.1 i.1où Ci est la variable indicatrice <strong>de</strong> censure. Dans le cas d'un modèle <strong>de</strong>Weibull à hasard proportionnel, le hasard s'écrit :h(ti) =où x est le vecteur ligne <strong><strong>de</strong>s</strong> valeurs prises par les variables exogènes pourl'individu i. La survie a pour forme :La log-vraisemblance vaut donc :nS(t) = exp[— exp(xii3)eix].log L = ci[log Œ + x8 + (a — 1) log 41 — (exp(x'03))tnnLes dérivées partielles <strong>de</strong> la log-vraisemblance par rapport à a et /3 valent :ô log LSanlog Lapc i [-à-1 + log ] —i=1ni=16.5 Tests sur les paramètresni=1exp(x;i3)tî' log tii=1exp(zP)tî.L'estirnateur du maximum <strong>de</strong> vraisemblance est, on l'a vu, asymptotiquementnormal. Cette propriété va permettre d'effectuer <strong><strong>de</strong>s</strong> test asymptotiques3 surles paramètres estimés. Le test le plus immédiat porte sur la significativitéd'une variable exogène. On peut aussi <strong>de</strong>voir tester l'existence d'une contraintelinéaire sur les paramètres : dans l'exemple du modèle <strong>de</strong> Weibull ci-<strong><strong>de</strong>s</strong>sus,tester si a = 1 revient à évaluer la significativité d'un modèle exponentiel. Onpeut également se <strong>de</strong>man<strong>de</strong>r si les coefficients <strong>de</strong> <strong>de</strong>ux caractéristiques, par exemple<strong><strong>de</strong>s</strong> variables représentant <strong><strong>de</strong>s</strong> tranches d'âges voisines, sont différents ousemblables, etc...3C'est-.-dire quand le nombre d'individus étudiés est grand.Données <strong>de</strong> survie 55


Il existe trois grands types <strong>de</strong> tests asymptotiques applicables dans cecas. Présentons-les dans le cas général du test d'une contrainte linéaire sur lesparamètres. On veut tester :Ho : Lf3 = c, contreH1 : Lf3 e c, avec L et c, matrices <strong>de</strong> coefficients réels <strong>de</strong> taille convenable.L'idée <strong>de</strong> ces tests est simple. Le premier (test du rapport <strong>de</strong> vraisemblance)compare la valeur <strong><strong>de</strong>s</strong> log-vraisemblances sous les <strong>de</strong>ux hypothèses. Sielles sont assez proches, on pourra accepter Ho. Cela nécessite <strong>de</strong> pouvoir calculersimplement les estimateurs /30 et Pi <strong>de</strong> fl sous les <strong>de</strong>ux hypothèses. Onmontre que la quantité :LR = 2[log L(131) — log L(f30 )] converge en loi vers un x2(r), où r est le rang<strong>de</strong> L, c'est-à-dire le nombre <strong>de</strong> contraintes indépendantes sur les [3i.L'hypothèse nulle sera rejetée si la valeur calculée <strong>de</strong> LR dépasse un seuilcritique.Le second (test <strong>de</strong> Wald) revient à évaluer la contrainte à l'ai<strong>de</strong> <strong>de</strong> )31. Sila valeur trouvée est assez proche <strong>de</strong> 0, on peut accepter l'hypothèses nulle. Onmontre que la quantitéW = (Lfli — c)[L17/(,31)L1(L,81 — c) converge en loi vers un x2(r), où r est lerang <strong>de</strong> L.L'hypothèse nulle sera rejetée si la valeur calculée <strong>de</strong> W dépasse un seuil critique.Ce test est particulièrement utilisé quand l'estimation sous l'hypothèsealternative est plus simple que sous l'hypothèse nulle.Le troisième (test du score) revient à calculer le vecteur du score sousl'hypothèse nulle. Si la valeur trouvée pour Lfli — c est assez proche <strong>de</strong> 0, onpeut penser que l'on ne s'éloigne pas trop du maximum <strong>de</strong> vraisemblance et quel'on peut donc accepter l'hypothèse nulle. On montre que la quantité :5 ( aLg30) y [aa2 f3ma po, ) ) ] -1 ( aLgo ) )converge en loi vers un x2(r), où r est le rang <strong>de</strong> L.L'hypothèse nulle sera rejetée si la valeur calculée <strong>de</strong> S dépasse un seuilcritique. Ce test est particulièrement utilisé quand l'estimation du score sousl'hypothèse nulle est simple.Ces tests sont asyptotiquement équivalents, c'est-à-dire que pour N infini,ils amèneront à prendre les mêmes décisions. Ils sont fréquemment proposésdans les procédures SAS qui seront développées par la suite. Le test du rapport56 INSEE Métho<strong><strong>de</strong>s</strong> n° 56-57-58


<strong>de</strong> vraisemblance peut être calculé simplement par l'utilisateur même s'A n'estpas directement calculé en standard 4.Notons également que si l'on veut simplement tester la nullité d'un seulcoefficient du modèle, il est plus simple d'utiliser un test <strong>de</strong> Stu<strong>de</strong>nt qui estparfaitement équivalent au test <strong>de</strong> Wald. La <strong>statistique</strong> <strong>de</strong> Stu<strong>de</strong>nt s'écrit,comme dans un modèle <strong>de</strong> régression habituel,TV(Pi)C'est la racine carrée <strong>de</strong> la <strong>statistique</strong> <strong>de</strong> Wald calculée dans le cas précis oùla contrainte est j33 = O. T suit asymptotiquement une loi normale centréeréduite. Il suffit alors <strong>de</strong> comparer Tau seuil <strong>de</strong> significativité habituel <strong>de</strong> laloi normale (environ 2 pour un risque <strong>de</strong> 5%). Si T est inférieur au seuil, onacceptera l'hypothèse nulle.411 suffit en effet <strong>de</strong> procé<strong>de</strong>r à <strong>de</strong>ux estimations, l'une contrainte et l'autre non, et <strong>de</strong>calculer LR à l'ai<strong>de</strong> <strong>de</strong> la valeur <strong>de</strong> la log-vraisemblance au maximum, qui figure dans toutesles éditions <strong>de</strong> résultats <strong><strong>de</strong>s</strong> procédures.Données <strong>de</strong> survie 57


7 Un estimateur non paramétrique : Kaplan-MeierL'estimateur <strong>de</strong> Kaplan Meier est très simple à calculer, et généralise la notion<strong>de</strong> fonction <strong>de</strong> répartition empirique en tenant compte <strong><strong>de</strong>s</strong> données censurées àdroite. C'est pourquoi il sert généralement <strong>de</strong> base à toute étu<strong>de</strong> sur les durées.Il peut en effet gui<strong>de</strong>r le choix d'une forme paramétrique particulière. Rappelonsqu'il doit être calculé pour <strong><strong>de</strong>s</strong> populations homogènes.Pour comprendre le principe du calcul, plaçons-nous dans le cas où il n'y apas <strong>de</strong> censure. Alors la survie en t peut être simplement estimée par:S(t) = 1 — F(t) où .t(t) = nt /N,avec nt : nombre <strong>de</strong> durées inférieures à t et N : nombre total d'observations.Dans SAS, cette fonction <strong>de</strong> répartition empirique est simplement donnée parune PROC FREQ.On peut remarquer que la fonction <strong>de</strong> survie estimée peut s'écrire simplementcomme un produit <strong>de</strong> probabilités conditionnelles. Plaçons nous dans le cassimple sans censure et où on n'observe qu'une seule fois chaque valeur <strong>de</strong> durée,que l'on notera dans l'ordre croissant t0 , t1, ...tN, avec t0 = O. On a alorsS (t) P (T > t) P(T > tilT > ti _1 )= (1— q5),


Notons également que l'on peut l'utiliser pour estimer une durée moyenne :puisque l'espérance <strong>de</strong> la durée peut généralement s'écrire:E(T)on peut utiliser l'estimateur suivant :00u f (u) du = f S(u) du,T= tii=1I étant le nombre <strong>de</strong> durées différentes observées. La durée moyenne ne seradonc la moyenne empirique que s'il n'y a pas <strong>de</strong> censure.Ces estimateurs <strong>de</strong> la fonction <strong>de</strong> survie et du hasard sont programmés dansla PROC LIFETEST (voir plus loin pour le détail <strong>de</strong> sa mise en oeuvre).L'estimateur <strong>de</strong> Kaplan Meier a <strong>de</strong> bonnes propriétés : Il est en effet biaiséà distance finie, mais convergent et <strong>de</strong> loi asymptotique connue (Normale). Ilest donc possible d'utiliser les tests asymptotiques habituels.Il est également possible d'utiliser <strong><strong>de</strong>s</strong> métho<strong><strong>de</strong>s</strong> non paramétriquespour tester l'homogénéité <strong>de</strong> <strong>de</strong>ux sous-populations. On a vu plus hautque cette homdgénéité est essentielle pour interpréter correctement la forme duhasard. SAS fournit, dans la procédure LIFETEST, <strong>de</strong>ux types <strong>de</strong> tests nonparamétriques.Le premier est un test <strong>de</strong> rangs généralisant le test <strong>de</strong> Wilcoxon à <strong><strong>de</strong>s</strong> donnéescensurées. Il revient à ordonner l'ensemble <strong><strong>de</strong>s</strong> durées T <strong><strong>de</strong>s</strong> <strong>de</strong>ux échantillonscomparés, en conservant, <strong>de</strong> plus, l'information sur la censure (Di = 1 si la sortieest observée) et l'échantillon d'origine (Z = 1 si la durée i vient <strong>de</strong> l'échantillon1). On compare alors <strong>de</strong>ux à <strong>de</strong>ux les durées (Ti , Ti) et on attribue un score Uiià toutes ces paires :{ Uii = 1 si Ti > Ti et Di = 1Uisi = —1 si Ti < Ti et Di = 1Uii = 0 sinonOn construit alors la <strong>statistique</strong> <strong>de</strong> rang U = Ei E j i Uii Zi. Cela revientà sommer pour les durées <strong>de</strong> l'échantillon 1, les scores <strong><strong>de</strong>s</strong> paires non censurées.On peut montrer que la loi <strong>de</strong> U est asymptotiquement normale, <strong>de</strong> varianceconnue, sous l'hypothèse nulle du test (homogénéité <strong><strong>de</strong>s</strong> <strong>de</strong>ux échantillons, soitmême loi <strong>de</strong> durée (en fait, même loi pour le couple (Ti, D — i))). Il suffit alors <strong>de</strong>comparer à 1,96 le rapport U/ Vo(U).0n montre également que la <strong>statistique</strong>Données <strong>de</strong> survie 59


<strong>de</strong> test U s'écrit <strong>de</strong> façon plus générale:U= r(ti) [di _ ri(i ii)]r(t)où les di sont les sorties non censurées en t„ et rl(ti) l'ensemble à risque <strong>de</strong>l'échantillon 1.Le second test, dit du "log-rank", revient à comparer les probabilités <strong><strong>de</strong>s</strong>ortie <strong><strong>de</strong>s</strong> <strong>de</strong>ux échantillons à chaque date ti. La <strong>statistique</strong> <strong>de</strong> test est assezproche <strong>de</strong> la précé<strong>de</strong>nte, puisqu'elle s'écrit:V--r- ci;rl(tir_ r(ti) _Cette <strong>statistique</strong> est également asymptotiquement normale sous H0.Ces <strong>de</strong>ux types <strong>de</strong> tests sont effectués dans la PROC LIFETEST. Ils permettent<strong>de</strong> tester l'homogénéité globale entre strates, mais aussi la significativitéd'exogènes particulières. Dans le premier cas, un vecteur T <strong>de</strong> <strong>statistique</strong>s <strong>de</strong>rangs dont les composantes sont définies par Tk -7= Ei UZ où Zik estune variable indicatrice d'appartenance à la strate k.La <strong>statistique</strong> globale utilisée pour le premier type d'hypothèse est T1V-T(où V- est une inverse généralisée <strong>de</strong> la variance estimée <strong>de</strong> T) qui suit asymptotiquementun X2 (c — 1) où c est le nombre total <strong>de</strong> strates. Cette métho<strong>de</strong> eststrictement équivalente aux principes généraux <strong><strong>de</strong>s</strong> tests énoncés dans le paragrapheprécé<strong>de</strong>nt.60 INSEE Métho<strong><strong>de</strong>s</strong> n° 56-57-58


8 Une estimation semi-paramétrique : le modèle<strong>de</strong> CoxUne métho<strong>de</strong> d'estimation semi-paramétrique est disponible dans la PROCPHREG <strong>de</strong> SAS(Versions 6). Elle concerne les modèles à hasard proportionnelsprésentés dans la partie 4.3 avec la spécification suivante pour la fonction <strong>de</strong>hasard:h(t I x; )3) = exp(x,3)ho (t),où ho est le hasard <strong>de</strong> base. Elle repose sur la maximisation <strong>de</strong> la "vraisemblancepartielle" <strong>de</strong> Cox.8.1 Vraisemblance partielle <strong>de</strong> CoxReprenons le cas où 1' on a ordonné les valeurs <strong><strong>de</strong>s</strong> I durées différentes observées:t i < t 2 < < ti et où il n'y a pas <strong>de</strong> censure. Soit comme précé<strong>de</strong>mment r(t)l' ensemble à risque en ti.La probabilité pou que ce soit l' individu j <strong>de</strong> r(t)qui sorte en ti vaut:h ( t / ; 13)EkEr(,) h(ti/xk P)Le dénominateur est la probabilité qu' une sortie ait lieu en ti au sein <strong>de</strong>l' ensemble à risque. Il vaut la somme <strong><strong>de</strong>s</strong> probabilités <strong>de</strong> sortie <strong>de</strong> tous lesindividus <strong>de</strong> cet ensemble. L' expression se simplifie puisque ho(t) figure dans<strong>de</strong> dénominateur et le numérateur, et elle vaut finalement:exp(xj,8)EkEr(to exP(x0)La vraisemblance partielle <strong>de</strong> Cox est le produit <strong>de</strong> ces probabilités pour l'ensemble <strong><strong>de</strong>s</strong> sorties (on supposera qu'il y en a en tout S < N):exp (s 13)L(13) =9 Eker(t,) exP(xkfl)S' il n'y a pas <strong>de</strong> censure, elle s'interprètre comme la vraisemblance <strong>de</strong> la<strong>statistique</strong> <strong>de</strong> rang associée aux durées. L' estimateur semi-paramétrique <strong>de</strong> fiva être obtenu en maximisant la log-vraisemblance partielle par rapport à /3 aumoyen d'une métho<strong>de</strong> itérative(voir partie 6).L'estimateur obtenu converge presque sûrement vers et est asympotiquementnormal.Données <strong>de</strong> survie 61


8.2 Estimation non paramétrique du hasard <strong>de</strong> baseOn préfère, en général, estimer directement la fonction <strong>de</strong> survie. Dans le modèle<strong>de</strong> Cox, cette fonction a une forme simple : elle s'écritS(t) = [So(t)]exP .Cette relation découle <strong>de</strong> la définition du modèle et <strong>de</strong> la relation générale entrehasard et survie.Kabfleish et Prentice en déduisent une métho<strong>de</strong> d'estimation <strong>de</strong> la "survie<strong>de</strong> base" en <strong>de</strong>ux étapes. Dans une première étape, on estime /3 par une maximisation<strong>de</strong> vraisemblance partielle. Ensuite, /3 étant remplacé par son estimationissue <strong>de</strong> la première étape, on maximise la vraisemblance par rapport à So.Cette procédure revient à estimer la survie <strong>de</strong> base par :oùÊo(t)=ti


d'où log H(t) — log Ho(t) fi. L'écart entre les <strong>de</strong>ux courbes <strong>de</strong> hasar<strong><strong>de</strong>s</strong>t donc constant. De manière générale, on trouvera un écart constant entreles divers groupes définis par les valeurs <strong><strong>de</strong>s</strong> exogènes si l'hypothèse <strong>de</strong>hasard proportionnel est vérifiée. Il existe également <strong><strong>de</strong>s</strong> tests paramétriquespour la spécification proportionnelle (Voir "Pour en savoir plus", en particulierMORS ALI).Données <strong>de</strong> survie 63


9 Les procédures SAS d'analyse <strong><strong>de</strong>s</strong> durées9.1 Estimations non paramétriques; la procédure LIFETESTCette procédure est utilisable sur <strong><strong>de</strong>s</strong> données pouvant être censurées à droite.Elle calcule <strong><strong>de</strong>s</strong> fonctions <strong>de</strong> survie par strates et propose <strong><strong>de</strong>s</strong> tests <strong>de</strong> rang afind'étudier l'homogénéité <strong><strong>de</strong>s</strong> strates.Mise en oeuvre simplifiée (principales options).PROC LIFETEST < Options 1 > ;TIME variable < Options 2 > ; Instructions obligatoiresBy variablesID variablesSTRATA variable < options 3 > ; Instructions facultativesTEST variablesOptions 1 :. DATA = ; précise la table SAS contenant les données.. INTERVALS = value ; fournit une liste <strong><strong>de</strong>s</strong> extrémités <strong><strong>de</strong>s</strong> intervallesutilisés dans les calculs <strong>de</strong> survie. Par défaut, SAS découpe la durée maximale<strong>de</strong> l'échantillon en dix intervalles. Ainsi, intervais = 5, 10 to 30 by 10 produitle découpage [0, 5), [5, 10), [10, 20), [20, 30), [30, Do).. METHOD = type ; par défaut, SAS utilise les estimateurs <strong>de</strong> Kaplan Meier<strong>de</strong> la survie ; on préférera METHOD = ACT si on veut connaître la fonction<strong>de</strong> hasard empirique (option conseillée par la suite).. NOTABLE ; supprime l'impression <strong>de</strong> la fonction <strong>de</strong> survie (nécessaire surles fichiers <strong>de</strong> données individuelles).. PLOTS = (type ) ; produit à la <strong>de</strong>man<strong>de</strong> les impressions :S : survie empiriqueLS : -Log(S)LLS : Log(-Log(S))H : hasard{ P : <strong>de</strong>nsité. OUTEST = data ; crée un fichier SAS contenant différents estimateurspour chacun <strong><strong>de</strong>s</strong> intervalles <strong><strong>de</strong>s</strong> différents strates :- variables BY et STRATA64 INSEE Métho<strong><strong>de</strong>s</strong> n° 56-57-58


- MIDPOINT, milieu <strong>de</strong> l'intervalle- SURVIVAL, survie- PDF, <strong>de</strong>nsité- HAZARD, hasard.. OUTEST = Data ; crée un fichier contenant les <strong>statistique</strong>s <strong>de</strong> rang pourtester les liens entre durées <strong>de</strong> vie et covariables.Options 2:Variable indique le nom <strong>de</strong> la variable contenant la durée <strong>de</strong> vie ; elle peutêtre suivie d'une étoile et du nom <strong>de</strong> la variable indiquant la censure à droite ;par exemple :time t * flag(1, 2) ;i<strong>de</strong>ntifie la variable t, censurée si la variable flag prend les valeurs 1 ou 2.Options 3:La variable STRATA détermine les sous populations sur lesquelles les estimateurssont calculés. Elle peut être numérique ou alphanumérique. Les donnéespeuvent être formatées dans l'instruction :STRATA age ;STRATA age (5 10 20 30) ;STRATA age (5 to 10) ;Test:L'instruction TEST fournit une liste <strong>de</strong> covariables numériques dont on veuttester les liens avec la durée <strong>de</strong> vie.Données <strong>de</strong> survie 65


The SAS SystemThe LIFETEST ProcedureSummary of the Number of Censored and Uncensored ValuesSX Total Failed Censored Censored1 11652 6548 5104 43.80362 13394 7150 6244 46.6179Total 25046 13698 11348 45.3086e. yr.) \er t/20 • ',DL-.proc lifetest data=a notable intervals=0 to 35 by 3method=act plots=(s,ls,h) outsurv=u;tistrata rate durmc(1); //sx;INSEE Métho<strong><strong>de</strong>s</strong> n° 56-57-58,à,us;„ In“le U:1


The SAS Systemuns ap saauuoaSOFThe LIFETEST ProcedureSurvival Function Estimates1.0 + 8t +s t +u I ++✓ I ++y ! +i t +✓ 0.8 + ++a l t++1 +4.t +8D 4 + +i t A ++s 4 ++ +t 0.6 + + +✓ 4 ++++i t 4. +la t ++0+u t A++++t t ++ +++i t ++ +0+o 0.4 + ++ +++n 4 +A+ +++t +++ +8+F t +++ +++u t .1-444 ++4n 4 ++++ +0++++c t ++A++++++++0++t 0.2 +++++ A++++++i 1 ++++4++++o t ++++4E++++++++13++++n t ++++,A+44+++++X+.4.41-4.4-f-441I1-4+-FA!!0.0 +0 2 4 6 8 10 12 14 16 18 20 22 24 26 28 30 32 34 36DUR


-LOG SDFThe SAS SystemThe LIFETEST Procedure-Log(Survivel Function) EstimatesINSEE Métho<strong><strong>de</strong>s</strong> n° 56-57-582.5 +2.0 +He 1g a1.5 +1o 1g1.0 +D10.5 +0.0 +++A++++++A++ ++++B++++++B++++++A++++++++++++B++++A++++++++++ +0+++A++ ++++++ ++++++ +B+++A+ +++++++ ++++A++ +8++++ ++++++ ++++6+ +8+++ +++++ 44-4-++ +5++A+ +++++ +++++ +5+++ ++++6+++++++8+++++++++A+++++B+++++++++0 2 4 6 0 10 12 14 16 18 20 22 24 26 28 30 32 34 36DUR


aluns ap saauuoaThe SAS SystemThe LIFETEST ProceclureHazard Function EstimatesHazard 1110.14 +A1+1 +1 +1 +1 +0.12 + +1 B +1 ++ +1 + +1 ++ +1 + A0.10 + ++ ++1 B ++H 1 + ++ ++Aa 1 ++ ++ ++++ +z 1 + A++ +a 1 + +r 0.08 + ++ ++8+ ++d 1 + ++++ +++ +1 8++ +++F 1 +8++++u 1 A++++++++8++++++++8++++++++8n ! ++++A++ +c 0.06 + ++++ ++ti11'++A++++++ ++A++8++ ++A++o 1 +++ +++++ ++++ + ++n 1 +A++ + ++ +++ ++1 8+ +A+ +++ +1 t+1 +1 +1 +1 +0.02 + B111!10.00 +11CYN'.01+ + + + + 4 + + + + + + + + + + + + +0 2 4 6 e 10 12 14 16 18 20 22 24 26 28 30 32 34 36DUR


The SAS SystemThe LIFETEST ProcedureTesting Homogeneity of Survival Curves over StrataTime Variable DURINSEE Métho<strong><strong>de</strong>s</strong> n° 56-57-58cil tut w r o ut LIAts ola, rt‘-^,E5-1-2Rank StatisticsSX Log-Rank Wilcoxon S Y ol.Tri -t.: ci u..LA cl4 r a 1... jan &D u, .0 ^vou.. 1....4à1 490.98 8902672 1 I.,,, cl,,,,,, s-4 ., 1 ,..ltay.., c., ...b or'- orsro C.0,,2 -490.98 -8902672 j ....; , ,, d ,‘I a. 9 hou.. %,..-0,,,y4,...Covariance Matrix for the Log-Rank StatisticsSX 1 21 3023.22 -3023.22 Vaivam te m, p rt2 -3023.22 3023.22Covariance Matrix for the Wilcoxon StatisticsSX 1 2Test8.698E11 -8.7E11-8.7E11 8.698E11Test of Equality over StrataPr >Chi-Square DF Chi-SquaneV all_À 0,m Lt_Cie Vs) I Couy.Ria-, 43—.20 Log-Rank 79.7357 1 0.0001Wilcoxon 91.1198 1 0.0001 t r j.4:2Log(LR) 114.0473 1 0.0001 n,sz s,72 r.r.A;L: eA Ltd durijf\-b■L. I D r**%. trstr> tY C. m-Yr■Q...1~~E ûrnrrnk cL dra.)tr.ity,l (ILL Cz,„ IL, Itrioe.\t~Ls'é~i tocui,A . r o u, • cy.m. .41. 'pu^ 1141- ■-*1rcu-c.ctte,,Dh -431—o ot, r4,1 ve,Op-d- 1 d .4_2. 1-.,trre:C_42 (1-1..,%rs •


9.2 Estimations paramétriques9.2.1 la procédure LIFEREG.Cette procédure estime <strong><strong>de</strong>s</strong> modèles à durée <strong>de</strong> vie accélérée 5sous la forme :y = xb o-uoù exp(U) suit une loi connue (exponentielle, logistique, normale).Elle fournit en sortie <strong><strong>de</strong>s</strong> estimateurs <strong>de</strong> b et o-.LIEN AVEC DES MODÈLES CONNUSSoit T la variable aléatoire représentant la durée <strong>de</strong> vie.- dans le modèle exponentiel, log(OT) = U où exp(U) suit une loi exponentielled'espérance 1. De ce fait,y = log(T) = — log(0) + U.Si on pose t9 = exp(x/3), on obtient fi' = -6, en contraignant o- = 1.- dans le modèle <strong>de</strong> Weibull, log(\T) = E- où exp(U) suit à nouveau uneloi exponentielle d'espérance 1.La fonction <strong>de</strong> hasard s'écrit alors : 9(t) = aÀata-1.Si on pose Aa = exp(e) pour ramener à la spécification habituelle, onobtient :et par conséquent : & = -1 et =Uy = log(T) = —x— —a a- pour la fonction log-logistique avec :On retrouve & = -li et ij =Pour la fonction log-normale :11+ exp(exp(e)ta)5 Les modèles exponentiels et <strong>de</strong> Weibull sont à la fois <strong><strong>de</strong>s</strong> modèles à hasard proportionnelset à durée <strong>de</strong> vie accelérée. La procédure LIFEREG permet <strong>de</strong> les estimer aisément comme<strong><strong>de</strong>s</strong> modèles à durée <strong>de</strong> vie accelérée. On retrouve les paramètres <strong>de</strong> l'autre forme moyennantune simple règle <strong>de</strong> trois.Données <strong>de</strong> survie 71


log(t) — xb )P(t) = 1 4,.(On a directement les bons estimateursMise en oeuvre simplifiée (principales options).PROC LIFEREG < Options 1 > ;MODEL response = indépendants < Options 2 > ;Instructions obligatoir(BY variablesCLASS variablesOUTPUTWEIGHT variablesOptions .1 :< Options 3 > Instructions facultatives}DATA =OUTEST = data ; permet <strong>de</strong> récupérer les estimateurs dans data.COVOUT ; ajoute la matrice <strong>de</strong> variance-covariance dans OUTEST.Options 2 :* Censor (list) ; précise l'existence d'une censure à droite (voir LIFETEST).D = ; précise la distribution.EXPONENTIAL modèle exponentielWEIBULL WeibullLLOGISTIC log LogistiqueLNORMAL log normalOptions 3 :OUT = data précise le nom du data <strong>de</strong> sortie.Keyword = naine avecCENSORED = variable indicatrice d'une censureCDF = cumulativeXBETA = xb.. CLASS le même rôle que dans la PROC GLM.72 INSEE Métho<strong><strong>de</strong>s</strong> n° 56-57-58


dJtUflS dp Sdd UllOaThe SAS SystemLifereg PracedureData Set=WORK.ADepen<strong>de</strong>nt Variable=Log(Y)Censoring Variable=CCensoring Value(s)= 1Noncensored Values= 1986 Right Censored Values= 828Left Censored Values= 0 Interval Censored Values= 0Log Likelihood for WEIBULL -3745.566587 -3e- e,pa4(voir AS )ou'i rn a-4-41-r.; Sr.D.r‘e9%.Le.. pou.: lem.v r e Lo5 ra..1*,..i t-rt LeeLifereg ProcedureVariable DF Estimate Std Err ChiSquare Pr>Chi Label/ValueINTERCPT 1 6.66825994 0.3353.79 395.325 0.0001 Intercept -G.15AGE 1 2.58784818 0.190872 183.8205 0.0001 —4> b 2, •SCALE 1 0.9551992 0.016359Extreme value scale parameter


9.2.2 Utilisation <strong>de</strong> la PROC NLINUn inconvénient déjà cité <strong>de</strong> la PROC LIFEREG est <strong>de</strong> pas fournir les estimateursrecherchés, notamment pour le modèle <strong>de</strong> Weibull, mais <strong><strong>de</strong>s</strong> estimateursdivisés par Cr. En outre, cette procédure est fermée et ne permet pas <strong>de</strong>prendre en compte d'autres éléments <strong>de</strong> la log-vraisemblance, par exemple enprésence <strong>de</strong> sélection endogène. Un moyen d'obtenir les résultats recherchésconsiste à utiliser la PROC NLIN, en la paramétrisant afin qu'elle maximisela log-vraisemblance requise. Cette procédure permet en effet <strong>de</strong> maximiserune fonction quelconque une fois définies cette fonction (appelée fonction <strong>de</strong>perte, repérée par l'instruction _loss_) et sa dérivée. On fait alors exécuter àla PROC NLIN un algorithme <strong>de</strong> Gauss Newton (voir supra) dans lequel leHessien 802Lbe,L a été remplacé par son équivalent asymptotique, l'opposé <strong>de</strong>l'espérance du produit <strong><strong>de</strong>s</strong> dérivées premières E[ aLeof r, ( 13Leoiq L ) ,1 i Dans ce cas,l'instruction MODEL <strong>de</strong>vient inopérante et doit être remplacée afin <strong>de</strong> générersystématiquement un résidu <strong>de</strong> 1 afin <strong>de</strong> générer un score adéquat.74 INSEE Métho<strong><strong>de</strong>s</strong> n° 56-57-58


ne(Jyrae;r... ?&-keproc nlin data=a sigsq=1 method=marquardt;Parms a=0.50 60=0 61=0;_ xb_=b0+age*bl;lsurv =(y**a)*exp(_xb_);loss =-( (_xt) +log(a)+(a-1)*logy)*d-_lsurv _ );<strong>de</strong>r.b-d= d- ( lsurv );<strong>de</strong>r.b1=(<strong>de</strong>r.g0)*ag-e-;<strong>de</strong>r.a= ((l/a + logy)Xd-logy*_lsurv_);mo<strong>de</strong>l Y=Y-1;`re94'-'4".The SAS System09,54 Tuesday,Non-L n ar Least Squares Iterative Phase Depen<strong>de</strong>nt Variable Y Method: MarquardtIterABOAl Sum of Lossa 0.500000 0 0 8907.4850401 0.726234 -0.555944 0.174401 7162.0241782 1.167913 -2.439682 -0.068306 6400.4139073 1.105386 -3.641221 -0.814720 6294.9412424 1.082431 -5.186670 -1.687465 6232.096426 ,,,,k„,5 1.055668 -6.322047 -2.344031 6210.2591406 1.052072 -6.862114 -2.640263 6206.997045 ra-ilb,4,,/7 1.046155 -6.960325 -2.700334 6206.8053158 1.048412 -6.986344 -2.710340 6206.7954059 1.045939 -6.977509 -2.708854 6206.79384310 1.047751 -6.984691 -2.710024 6206.79312111 1.046240 -6.978401 -2.708780 6206.79266212 1.047443.- -6.983242 -2.709649 6206.79237113 1.046469 -6.979260 -2.708903 6206.79218014. 1.047252 -6.982442 -2.709489 6206.79205715 1,046620 -6.979869 -2.709012 6206.79197616 1.047129 -6.981940 -2.709395 6204.791924terion met.Non-Linear Least Squares Summary StatisticsIDepen<strong>de</strong>nt Variable YSource IF Sum of Squares Mean SquareRegression3 215156.00000 71718.66667 c.„2,.,1Residual2811 2814.00000 1.00107 1Uncorrected Total 2814 217970.00000(Corrected Total) 2813 109487.13433Sum of Loss 6206.79192Parameter Estimate Asymptotic Asymptotic 95Std. Error Confi<strong>de</strong>nce IntervalLouerUpperA 1.047129225 0.02283216945 1.0023589197 1.0418995312BO -6.981939868 0.33730269406 -7.6433375854 -6.3205421512‘,■81 -2.709395068 0.18420119775 -3.0705847468 -2.3482053895Asymptotic Correlation MatrixCorr A BO BIABOBI1-0.301809437-0.138226033-0.30180943710.9840839573-0.1382260330.98408395731Données <strong>de</strong> survie 75


1 The SAS SystemNOTE: Copyright(c) 1989 by SAS Institute Inc., Cary, NC USA.NOTE: SAS (r) Proprietary Software Release 6.07 TS305Licensed to INSEE LILLE, FRANCE, Site 0002383002.NOTE: Running on IBM Modal 9121 Serial Humber 110337.BIENVENUE sous le Systeme SAS release 607VERSION EN PRODUCTION DEPUIS LE 15 MARS 1993NOTE: The SASUSER library was not specified. SASUSER library will now be the same as the WORK library.NOTE: Ail data sets and catalogs in the SASUSER library will be <strong>de</strong>lated at the end of the session. Use the NOWORKTERM option toprevent their <strong>de</strong>letion.NOTE: SAS system options specified are:SORT=4 MEMSIZE.30MNOTE: The initialization phase used 0.16 CPU seconds and 756K.1 Options Nocaps;2 data a;set e.th;3 Y=YY;t=ta;4 logy=log(y);5 if t>0 then logt=log(t);alse logt=0;6 d.1-cens;7NOTE: The data set WORK.A has 3680 observations and 27 variables.NOTE: The DATA statement used 0.18 CPU seconds and 1099K.INSEE Métho<strong><strong>de</strong>s</strong> n° 56-57-588 proc nlin data.a sigsq=1 mathod=marquardt;9 Paras a=0.50 b0=010 bcre2=0 bcre3=0 bcre4=011 bsant2.0 bsant3=0 bsant4=0 bsant5=0 bsant6=012 bage2=0 bage3=0 bage4=0 bage5=0 bage6=0 bage7=0 bage8=013 balloc1=0;14 array ax cre2-cre4 sant2-sant6 age2-age8 allocl;15 array ab bcre2-bcre4 bsant2-bsant6 bage2-bage8 ballocl;16 array ad <strong>de</strong>r.bcre2-<strong>de</strong>r.bcre4 <strong>de</strong>r.bsant2-<strong>de</strong>r.bsant617 <strong>de</strong>r.bage2-<strong>de</strong>r.bage8 <strong>de</strong>r.ballocl;18 _xb.b0;do over ax;_xb_=_xb_+axXab;end;19 — lsurv .(yffla)Kexp(_xb_);21_ —lors .-( ( xb_+log(à")+-Ca-1)Klogy)Kd-_lsurv_+_lsurv0.... );22 Uer.b-0-= ( d= lsurv_+_1surv0_ );23 do over ad; — 1 1\24 ad.(<strong>de</strong>r.b0)Kax;25 end;26 <strong>de</strong>r.a. ((lia + logy)xd-logy)e_lsurv_+logtx_lsurv0_);27 modal y=y-1;NOTE: PROC NLIN grid search time was 0: 0: 3.NOTE: PROC HUN execution time was 0: 3:50.NOTE: The PROCEDURE NLIN printed pages 1-3.NOTE: The PROCEDURE NLIN used 19.78 CPU seconds and 1263K.20 lsurvii =(t)0(a)Kexp( xb );"}----- C.


ayUnS ap Sa?UU0(1The SAS SystemNon-Linear Least Squares Iterative Phase Depen<strong>de</strong>nt Variable Y Method: MarquardtItarABOOCREZBCRE30CRE4B5ANT285ANT3 Sum of LossOSANTSBSANT5BSANT6BAGE2BAGE3BAGE4BASES0AGE6BAGE7BASESBALLOC10 0.5000000o000o 9901.11212600000000 0 0 01 0.639119 -0.660212 -0.145124 -0.141295 0.237580 -0.023353 0.065083 8927.6200530.031295 0.121768 0.053060 -0.117099 -0.098363 -0.201913 -0.178264-0.166989 -0.286190 -0.298007 -0.0455022 0.937159 -1.878259 -0.354960 -0.310498 0.598386 0.064612 0.307097 0469.5780560.249309 0.487138 0.164600 -0.364173 -0.441418 -0.615229 -0.627447-0.716209 -1.055043 -1.080362 -0.0081133 0.916085 -1.840788 -0.325620 -0.256632 0.629418 0.165736 0.400500 8442.0373480.406455 0.618585 0.227385 -0.320970 -0.531591 -0.631808 -0.721405-0.872690 -1,395535 -1.505878 9.0070594 0.936042 -1.924070 -0.313132 -0.261466 0.638237 0.152028 0.386765 8440.6689950.393083 0.612341 0.216761 -0.312841 -0.516456 -0.631182 -0.711143-0.877049 -1.452859 -1.574241 0.0082885 0.925767 -1.884176 -0.308677 -0.254251 0.636393 0.158747 0.388150 8140.5265020.394547 0.612117 0.218169 -0.315263 -0.517036 -0.631829 -0.715722-0.875525 -1.466164 -1.579630 0.0066696 0.930789 -1,903764 -0.309260 -0.256070 0.636459 0.155643 0.387355 8440.4955070.393187 0.611893 0.215746 -0.315080 -0.517391 -0.631980 -0.714561-0.877622 -1.467057 -1.580060 0.0082997 0.928200 -1.893817 -0.308741 -0.255127 0.636224 0.157277 0,387598 8440.4879810,393685 0.611919 0.216676 -0.315084 -0.517199 -0.631690 -0.715007-0.876507 -1.467554 -1.579863 0.0074310.929471 -1.898685 -0.308930 -0.255488 0,636245 0.156460 0.387472 8440.4861320.393381 0.611861 0.216107 -0.315140 -0.517384 -0.631848 -0.714809-0.877113 -1.467499 -1.580002 0.0078919 0.928830 -1.896234 -0.308825 -0.255314 0.636209 0.156873 0.387526 8440.4856740.393519 0.611880 0.216376 -0.315108 -0.517303 -0.631753 -0.714894-0.876804 -1.467544 -1.579922 0.00765510 0.929147 -1.897446 -0.308873 -0.255394 0.636219 0,156666 0.387499 8440.4855600.393446 0.611867 0.216235 -0.315125 -0.517352 -0.631800 -0.714852-0.876961 -1.467527 -1.579963 0.00777311 0.928989 -1.896840 -0.308848 -0.255355 0.636212 0.156769 0.387512 8440.4855320.393401 0,611873 0.216304 -0.315118 -0.517329 -0.631776 -0.714872-0.876883 -1,467536 -1.579941 0.007714NOTE, Convergence criterion met.Non-Linear Least Squares - Summerv Statistics Depen<strong>de</strong>nt Va 61.5 YSource OF Sue of Squares Mean SquareRegression 10 2776365.0000 154242.5000Residual 3662 3680.0000 1.0049Uncorrected Total 3680 2780045.0000(Corrected Total) 3679 1429165 3!Sum of Loss


The SAS SystemParameter Estimate AsymptoticStd. ErrorAsymptotic 95Confi<strong>de</strong>nce IntervalALowerUPPer0.928988642 0.01679714612 0.8960553636 0.9619219200BO -1.896840082 0.08869075323 -2.0707313626 -1.7229488017BCRE2 -0.308848120 0.06189730114 -0.4302068927 -0.1874893475BCRE3 -0.255354535 0.07118437333 -0.3949219805 -0.1157870904BCRE4 0.636211648 0.05026439035 0.5376609097 0.7347623861BSANT2 0.156769478 0.07291495606 0.0138089709 0.2997299855BSANT3 0.387511728 0.07190195432 0.2465373595 0.5284860960BSANT4 0.393481021 0.06433264540 0.2673473974 0.5196146446OSANTS 0.611872603 0.07321428913 0.4683252090 0.7554199967BSANT6 0.216304308 0.06774999730 0.0834704630 0.3491381533BAGE2 -0.315117869 0.05908036215 -0.4309536178 -0.1992821199BAGE3 -0.517329103 0.06293084475 -0.6407142904 -0.3939439164BAGE4 -0.631775539 0.07156909241 -0.7720972828 -0.4914537959BAGE5 -0.714871720 0.08309325626 -0.8777882836 -0.5519551566BAGE6 -0.876882805 0.08800791202 -1.0494352748 -0.7043303353BAGE7 -1.467535725 0.09665347325 -1.6570390907 -1.2780323597BAGE8 -1.579941357 0.10012624833 -1.7762536097 -1.3836291050BALLOC1 0.007713562 0.05544145467 -0.1009875734 0.1164146967Asymptotic Correlation HatrixCarr A BO BCRE2 BCRE3 BCRE4 BSANT2 BSANT3 BSANT4 OSANTS8S-LS-95- 0u gaP0111PVA 1 -0.60824987 -0.06172492 -0.04620204 0.081961965 -0.02444655 0.053608745 0.032468422 0.070881502BO -0.60824987 1 -0.13171071 -0.23952389 -0.34257101 -0.27788346 -0.30990535 -0.33204981 -0.28984235BCRE2 -0.06172492 -0.13171071 1 0.371228597 0.546686421 -0.02573659 -0.06946145 0.005611338 -0.07575261BCRE3 -0.04620204 -0.23952389 0.371228597 1 0.457958334 0.013688122 0.007785048 0.025482736 -0.01012895BCRE4 0.081961965 -0.34257101 0.546686421 0.457958334 1 -0.00248192 0.005319205 0.019032348 -0.01380476BSANT2 -0.02444655 -0.27788346 -0.02573659 0.013688122 -0.00248192 1 0.477478414 0.530725712 0.472889249BSANT3 0.053688745 -0.30990535 -0.06946145 0.007785048 0.005319205 0.477478414 1 0.558720502 0.513463854BSANT4 0.032468422 -0.33204981 0.005611338 0.025482736 0.019032348 0.530725712 0.558720502 1 0.57109521OSANTS 0.070881502 -0.28984235 -0.07575261 -0.01012895 -0.01380476 0.472889249 0.513463854 0.57109521 1BSANT6 -0.08258511 -0.31930292 -0.06406762 -0.14500002 -0.07955073 0.466562859 0.465860891 0.519191492 0.460731824BAGE2 -0.15298561 -0.07497915 -0.01500272 -0.01040478 -0.01018628 -0.07595395 -0.15328812 -0.12129521 -0.09948079DAGE3 -0.20072141 -0.00364383 -0.05462895 0.01522364 -0.00594329 -0.0400145 -0.10849829 -0.17550166 -0.16927068BAGE4 -0.18236084 -0.01453258 -0.12898394 -0.02172015 -0.03009258 0.004498939 -0.09031632 -0.08956218 -0.12694187BAGE5 -0.15446322 0.008848179 -0.14251663 0.004386751 -0.01235297 -0.02300854 -0.07916651 -0.11655063 -0.18006147BAGE6 -0.20003946 0.046220298 -0.09752568 0.002693507 -0.0369603 -0.02089758 -0.0892705 -0.10180999 -0.1732832BAGE7 -0.18145882 0,042149166 -0.12005687 -0.0011079 -0.01424007 0.005239762 -0.05897986 -0.09195843 -0.10850112BAGE8 -0.17930378 0.048504181 -0.17681905 -0.01426501 -0.01939413 -0.03370265 -0.08067627 -0.07586762 -0.17284731BALLOCI 0.075773879 -0.4308824 -0.13388365 0.042018526 -0.13189607 -0.12121762 -0.10442226 -0.13713893 -0.11522192


amans ap saputiouCorr BSANT6 BAGE2 BAGE3The SAS SystemAsymptotic Correlation MatrixBAGE4 BAGE5 BAGE6 BAGE7 BAGE8 BALLOC1A -0.08256511 -0.15298561 -0.20072141 -0.18236084 -0.15446322 -0.20003946 -0.18145882 -0.17930378 0.075773879BO -0.31930292 -0.07497915 -0.00364303 -0.01453258 0.008848179 0.046220298 0.042149166 0.048504181 -0.4308824OCREZ -0.06406762 -0.01500272 -0.05462895 -0.12898394 -0.14251663 -0.09752568 -0.12005687 -0.17681905 -0.13388365OCRES -0.14500002 -0.01040478 0.01522364 -0.02172015 0.004386751 0.002693507 -0.0011079 -0.01426501 0.042018526BCRE4 -0.07955073 -0.01018628 -0.00594329 -0.03009258 -0.01235297 -0.0369603 -0.01424007 -0.01939413 -0.13189607BSANT2 0.466562859 -0.07595395 -0.0400145 0.004498939 -0.02300854 -0.02089758 0.005239762 -0.03370265 -0.12121762BSANT3 0.465860891 -0.15328812 - 0.10849829 -0.09031632 -0.07916651 -0.0892705 -0.05897986 -0.08067627 -0.10442226BSANT4 0.519191492 - 0.12129521 - 0.17550166 -0.08956218 -0.11655063 -0.10180999 -0.09195843 -0.07586762 -0.13713893BSANT5 0.460731824 -0.09948079 -0.16927068 -0.12694167 -0.18006147 -0.1732832 -0.10850112 -0.17284731 -0.11522192BSANT6 1 0.035438379 0.024103824 0.044338329 0.017150947 0.022057617 0.020043808 -0.00057826 0.030491443BAGE2 0.035438379 1 0.368902838 0.322045832 0.284663236 0.275558207 0.248395244 0.244098422 -0.01495185BAGE3 0.024103824 0.368902838 1 0.341194016 0.317213429 0.303325407 0.276470095 0.274077547 -0.07897482BAGE4 0.044338329 0.322045832 0.341194016 1 0.287122066 0.272226878 0.250146447 0.257877598 -0.04561988BAGE5 0.017150947 0.284663236 0.317213429 0.287122066 1 0.258067704 0.236551464 0.249737012 -0.06519102BAGE6 0.022057617 0.275558207 0.303325407 0.272226878 0.258067704 1 0.223501445 0.23314897 -0.06707533BAGE7 0.020043808 0.246395244 0.276470095 0.250148447 0.236551464 0.223501445 1 0.214516795 -0.06481245BAGE8 -0.00057826 0.244098422 0.274077547 0.257877598 0.249737012 0.23314897 0.214516795 1 -0.05317916BALLOC1 0.030491443 -0.01495185 -0.07897482 -0.04561968 -0.06519102 -0.06707533 -0.08481245 -0.05317916 1


9.3 Estimations semi-paramétriques, la procédure PHREGElle est utilisable sur <strong><strong>de</strong>s</strong> données non censurées ou censurées à droite. Ellecalcule un estimateur non paramétrique du hasard <strong>de</strong> base et <strong><strong>de</strong>s</strong> estimateursparamétriques <strong><strong>de</strong>s</strong> coefficients associés aux covariable affectant le hasard <strong>de</strong> basesous la forme exp(x13).Mise en oeuvre simplifiée:PROC PHREG < Options 1 >;MODEL Urne * flag()=- exogènes;FREQ variable(entière);OUTPUT < Options 2 >;BASELINE < Options 3 >;Options 1:{ DATA=OUTEST = data ; nom du data qui contiendra les estimateurs <strong><strong>de</strong>s</strong> covariablesCOVOUT ajoute dans OUTEST la matrice <strong>de</strong> variance-covarianceOptions 2:nom du data <strong>de</strong> sortie construit à partir du tableauOUT= datainitial et contenant les <strong>statistique</strong>s requises .XBETA = x9SURVrVAL surviei LOGSURV Log(survie)Options 3:OUT= data1 COVARIATES. dataX B E rA =St RVIVALLOGSURVnom du data <strong>de</strong> sortie contenant la valeur <strong>de</strong> la surviepour les valeurs possibles <strong>de</strong> Urnenom du data contenant les valeurs <strong><strong>de</strong>s</strong> covariables pourlesquelles on cherche à calculer la survie(par défaut, SAS prend les valeurs moyennes<strong>de</strong> ces covariables dans le fichier)xi3survieLog(survie)!c'S 55-57-58


ns ap saauuouThe SAS SystemThe PURE° ProcedureData Set: WORK.ADepen<strong>de</strong>nt Variable: DURCensoring Variable: CCensoring Value(s): 1Ties Handling: BRESLOWCriterion-2 LOG LScoreWaldSummary of the Number ofEvent and Cansored ValuesPercentTotal Event Censored Censored25046 13698 11348 45.31Testing Global Null Hypothesis: BETA=0WithoutWithCovariates Covariates Modal Chi-Square257467.329 257396.229•Analysis of Maximum Likelihood Estimatest14 proc phreg data=a;15 mo<strong>de</strong>l durac(1)=femmes;16 baseline out=b covariates cov survival=s logsurv=ls;NOTE: The PROCEDURE PHREG used 4.85 C seconds and 3171K.NOTE: The data set WORK.B has 105 obser ations and 4 variables.NOTE: The PROCEDURE PHREG printed page71.100 with 1 DF (p=0.0001)71.435 with 1 DF (p=0.0001)71.311 with 1 DF (p=0.0001)Parameter Standard Wald Pr >RiskVariable DF Estimate. Error Chi-Square Chi-Square RatioFEMMES 1 I -0.144535 S 0.01712 71.31139 0.0001 0.865I ra.ta--.1 à.■ rln.46 _, „,,)„,„, eD\r)t,..e.tk-• o cares. Gaiai. Ifpx


OBSFEM ESThe SAS SystemOURSLS1 0 1.00000 0.00000 Cr-Pa.e sis20 0.86263 -0.1477731 0.74747 -0.29105 -P. -1214 2 0.66471 -0.408415 3 0.59660 -0.5165167450.534750.48380-0.62596-0.726088 6 0.44450 -0.810819 7 0.40534 -0.9030410 8 0.37649 -0.9768611 9 0.34752 -1.0569212 10 0.30782 -1.1782513 11 0.28266 -1.2635114 12 0.26013 -1.3465715161314Q.243040.2264917 15 0.20933 -1.5638518 16 0.19677 -1.6257219 17 0.18553 -1.6845620 18 0.17605 -1.7370121 19 0.16267 -1.8160322 20 0.15181 -1.8851023 21 0.14012 -1.9652724 22 0.13316 -2.0162325 23 0.12786 -2.0568126 24 0.12105 -2.1115727 25 0.11787 -2.1382128 26 0.10999 -2.2073429 27 0.10280 -2.2749730 28 0.09838 -2.3189131 29 0.09496 -2.3543032 30 0.08903 -2.4098633 32 0.08519 -2.4629234 33 0.08199 -2.5011735 34 0.07561 -2.5821336 0 1.00000 0.0000037 0 0.87996 -0.1278838 1 0.77733 -0.2518939 2 0 . 70226 -0.3534440 3 0 . 63955 -0.4470041 4 0 .58 175 -0.5417242 5 0 . 53346 -0.6283743 6 0 . 49575 -0.7016944 7 0 . 45771 -0.7815145 8 0 . 42939 -0.8453946 9 0 . 40064 -0.9146947 10 0 . 36 07 1 -1.0196948 11 0 . 33505 -1.0934749 12 0 . 31 181 -1.1653650 13 0 . 29400 -1.2241851 14 0 . 27660 -1.2051952 15 0 . 25836 -1.3534053 16 0 . 24489 -1.4069354 17 0 . 23273 -1.4578655 18 0 . 2224 1 -1.5032556 19 0 . 20770 -1.57164-1.41455-1.48504 ,D)82 INSEE Métho<strong><strong>de</strong>s</strong> n° 56-57-58


The SASSystemOBSFEMMESOURSLS57 1.00000 20 0.19565 -1.6314158 1.00000 21 0.18254 -1.7007959 1.00000 22 0.17466 -1.7449060 1.00000 23 0.16864 -1.7800161 1.00000 24 0.16083 -1.8274162 1.00000 25 0.15716 -1.8504663 1.00000 26 0.14804 -1.9102964 1.00000 27 0.13962 -1.9688165 1.00000 28 0.13441 -2.0068466 1.00000 29 0.13036 -2.0374767 1.00000 30 0.12424 -2.0055568 1.00000 32 0.11866 -2.1314769 1.00000 33 0.11480 -2.1645770 1.00000 34 0.10703 -2.23464j71 0.53478 0 1.00000 0.0000072 0.53478 0 0.87217 -0.1367873 0.53478 1 0.76383 -0.2694174 0.53478 2 0.68521 -0.3780375 0.53478 3 0.61997 -0.4780976 0.53478 4 0.56023 -0.5794077 0.53478 5 0.51065 -0.6720778 0.53478 6 0.47213 -0.7505079 0.53478 7 0.43350 -0.8358780 0.53478 8 0.40487 -0.9041981 0.53478 9 0.37595 -0.97831 ç 1. • fr,,, Dt,82 0.53478 10 0.33601 -1.0906183 0.53478 11 0.31052 -1.1695284 0.53478 12 0.28753 -1.24641 do, -P85 0.53478 13 0.27000 -1.3093386 0.53478 14 0.25295 -1.3745887 0.53478 15 0.23515 -1.4475388 0.53478 16 0.22206 -1.5047989 0.53478 17 0.21029 -1.5592690 0.53478 18 0.20033 -1.6078091 0.53478 19 0.18620 -1.6809592 0.53478 20 0.17467 -1.7448893 0.53478 21 0.16217 -1.8190994 0.53478 22 0.15470 -1.8662695 0.53478 23 0.14900 -1.9038296 0.53478 24 0.14163 -1.9545197 0.53478 25 0.13818 -1.9791798 0.53478 26 0.12962 -2.0431699 0.53478 27 0:12175 -2.10575100 0.53478 28 0.11690 -2.14642101 0.53478 29 0.11313 -2.17918102 0.53478 30 0.10746 -2.23061103 0.53478 32 0.10231 -2.27972104 0.53478 33 0.09875 -2.31513105 0.53478 34 0.09162 -2.39007Données <strong>de</strong> survie 83


10 Pour en savoir plusDes éléments théoriques plus détaillés sur les modèles <strong>de</strong> durée figurent dans lesdocuments ci-<strong><strong>de</strong>s</strong>sous. Vous y trouverez en particulier les démonstrations <strong><strong>de</strong>s</strong>propriétés énoncées dans ce fascicule, <strong><strong>de</strong>s</strong> propositions <strong>de</strong> tests supplémentaires,et d'autres exemples d'applications,...ainsi qu'une bibliographie plus complète.- J.J. DROESBEKE, B. FICHET, P. TASSI, "Analyse <strong>statistique</strong> <strong><strong>de</strong>s</strong>durées <strong>de</strong> vie-Modélisation <strong><strong>de</strong>s</strong> données censurées ", Economica, 1989.- C GOURIEROUX," Econométrie <strong><strong>de</strong>s</strong> variables qualitatives", Economica,1989.- T. LANCASTER, "The Econometric Analysis of Transition Data" , EconometricSociety Monographs, Cambridge University Press, 1990.- A, MOREAU, "Econométrie <strong><strong>de</strong>s</strong> variables <strong>de</strong> durée", Note Départementrecherche N.123/G 305, 1989.Les <strong><strong>de</strong>s</strong>criptions complètes <strong><strong>de</strong>s</strong> procédures SAS présentées figurent bien entendu,avec <strong><strong>de</strong>s</strong> exemples supplémentaires, dans les manuels <strong>de</strong> référence <strong>de</strong>SAS-V6. La procédure PHREG fait l'objet d' un fascicule spécifique.84 INSEE Métho<strong><strong>de</strong>s</strong> n° 56-57-58


Recensement <strong>de</strong> la populationdu Canada en 19910Expérience avec un système<strong>de</strong> codification automatiqueJocelyn Tourigny,Statistique Canada1. INTRODUCTIONLa codification <strong><strong>de</strong>s</strong> libellés du recensement canadien <strong>de</strong> la population <strong>de</strong> 1991constitue la première utilisation massive du système généralisé CART(Codification Automatique par Reconnaissance <strong>de</strong> Texte), logiciel développé àStatistique Canada. Durant le traitement du recensement plus <strong>de</strong> 16 millions <strong>de</strong>libellés en clair provenant <strong>de</strong> 10 questions couchant la langue, la religion, lelieu <strong>de</strong> naissance, l'origine ethnique, l'éducation ec la mobilité ont été traitéspar le logiciel CARI. Un taux <strong>de</strong> succès <strong>de</strong> 922 a été obtenu avec un taux d'erreurinférieur à 1%. Pour ces questions, les coûts <strong>de</strong> l'opération <strong>de</strong> codification ontété réduits <strong>de</strong> moitié par rapport à la procédure <strong>de</strong> codification traditionnelle.Le présent document est divisé en <strong>de</strong>ux parties. Dans la première partie nousdécrivons la <strong>méthodologie</strong> du système <strong>de</strong> codification automatique CART. Dans lasecon<strong>de</strong> partie, nous présentons l'application <strong>de</strong> codification automatique durecensement canadien <strong>de</strong> 1991 et les résultats obtenus. La conclusion décrit lesprojets <strong>de</strong> codification pour le recensement <strong>de</strong> 1996.2. SYSTÈME DE CODIFICATION AUTOMATIQUE (CART)2.1 PROBLÉMATIQUE DU CODAGEDans le contexte d'une enquête, Les libellés en clair sont très utiles lorsquela variable étudiée a un ensemble <strong>de</strong> réponses possibles très vaste ou lorsquecertaines réponses ne peuvent'etre prédites. Ce type <strong>de</strong> libellé dans une questionpermet:une économie dans la formulation <strong>de</strong> la question en offrant au répondantmoins <strong>de</strong> choix à cocher (parfois le nombre <strong>de</strong> questions sur le sujet peutêtre réduit afin <strong>de</strong> laisser <strong>de</strong> l'espace pour <strong><strong>de</strong>s</strong> questions sur d'autressujets);d'être objectif en réduisant ou éliminant la structure artificielle <strong><strong>de</strong>s</strong>choix proposés (et l'ordre <strong>de</strong> ces choix) et <strong>de</strong> contrer la tendance durépondant à sélectionner le premier choix approprié;d'obtenir une variété <strong>de</strong> réponses permettant une revue <strong>de</strong> laclassification et parfois sa mise à jour; etd'être plus simple pour le répondant: ses réponses sont du même médium quela question.Toutefois, afin <strong>de</strong> faciliter la synthèse et l'analyse <strong>statistique</strong>, il estnécessaire <strong>de</strong> grouper ensemble les libellés en clair qui, suivant uneConférences spéciales 85


nomenclature existante (par exemple: la nomenclature <strong><strong>de</strong>s</strong> langues), ontessentiellement le méme sens. Cette opération est dénommée codification.Traditionnellement, la codification est une opération effectuée par <strong><strong>de</strong>s</strong> commissans aucun support informatique. Utilisant un libellé en clair (parfois <strong><strong>de</strong>s</strong>informations annexes soumises par le répondant) et les instructions <strong>de</strong>codification produites par un spécialiste <strong>de</strong> la nomenclature, un commis chercheun libellé dans un manuel <strong>de</strong> nomenclature. Le co<strong>de</strong> associé au libellé est inscritsur le questionnaire. C'est ce co<strong>de</strong> qui, au lieu du libellé, est saisi avec lesautres réponses du répondant.Il peut y avoir <strong><strong>de</strong>s</strong> variations à cette approche, telles l'interprétation <strong>de</strong> laréponse du répondant, l'utilisation <strong>de</strong> procédures spéciales et complexes et laréférence du problème à un expert en codification.Les problèmes rencontrés lors <strong>de</strong> la codification par <strong><strong>de</strong>s</strong> commis se situent àplusieurs niveaux.La codification est sujette à erreur. Il est difficile <strong>de</strong> chercher dans unmanuel <strong>de</strong> nomenclature qui a parfois plus <strong>de</strong> 50,000 entrées. Lesinstructions peuvent être inadéquates ou être parfois appliquéesincorrectement par le commis. Les libellés sont parfois vagues et leurinterprétation est très subjective, d'où la possibilité d'un mauvaischiffrement en <strong><strong>de</strong>s</strong> co<strong><strong>de</strong>s</strong> <strong>statistique</strong>s. Cependant seul un commis peutrepérer et solutionner adéquatement un cas "difficile".Bien contrôler l'opération <strong>de</strong> codification est un défi. Codifierprécisément nécessite beaucoup <strong>de</strong> jugement et il est parfois trèsdifficile <strong>de</strong> choisir le bon co<strong>de</strong> numérique. Il n'est pas surprenant <strong>de</strong>trouver beaucoup <strong>de</strong> variation entre le chiffrement <strong>de</strong> différents commis,et méme, à l'intérieur du travail d'un même commis. Il faut doncdévelopper un 'programme <strong>de</strong> formation étoffé, obtenir le support continud'experts et développer un contrôle qualitatif approprié.L'opération <strong>de</strong> codification est difficile à administrer. Il s'agit d'uneopération qui exige beaucoup <strong>de</strong> temps et <strong>de</strong> ressources. La courte durée<strong>de</strong> l'opération peut difficilement être réduite sans affecter les coûts etla qualité. Il faut donc engager et motiver un groupe important d'employéstemporaires pour effectuer un travail relativement monotone et espérer unerotation <strong>de</strong> personnel minimale.Pour remédier aux désavantages énumérés, plusieurs pays ont développé etutilisent avec succès <strong><strong>de</strong>s</strong> systèmes <strong>de</strong> codification automatique, notamment laFrance, la Suè<strong>de</strong> et les États-Unis. Statistique Canada a aussi mis au point unsystème <strong>de</strong> codification automatique pouvant répondre aux besoins <strong>de</strong> plusieursenquêtes. Ce système généralisé, connu sous le sigle <strong>de</strong> CART (pour CodificationAutomatique par Reconnaissance <strong>de</strong> Texte) est utilisé par quelques enquêtes doncla plus importante fut le recensement <strong>de</strong> 1991.2.2 MÉTHODOLOGIE DU CODAGE AUTOMATISÉ (CART version 1.06)Cette section décrit les éléments principaux <strong>de</strong> la <strong>méthodologie</strong> <strong>de</strong> lacodification automatique; ces éléments sont détaillés pour mieux comprendre cequi constitue la force et parfois la faiblesse du système CART selon la questionà chiffrer.86 INSEE Métho<strong><strong>de</strong>s</strong> n° 56-57-58


2.2.1 GénéralitésLes métho<strong><strong>de</strong>s</strong> utilisées par le système CART s'inspirent <strong>de</strong> métho<strong><strong>de</strong>s</strong> qui ont étéélaborées à l'origine au Bureau du Recensement américain (Hellerman, 1982) et <strong>de</strong>l'expérience <strong>de</strong> Statistique Canada dans le développement d'algorithmes et <strong><strong>de</strong>s</strong>ystèmes d'appariement <strong><strong>de</strong>s</strong> dossiers administratifs. Essentiellement, la métho<strong>de</strong>consiste à examiner une série <strong>de</strong> libellés préalablement codés. Si le libellé àchiffrer est repéré, le co<strong>de</strong> correspondant est enregistré et l'opération prendfin. Dans le cas contraire, l'examen se poursuit en faisant intervenir unalgorithme pour repérer le libellé le plus comparable; une fois cette opérationréalisée, le système attribue le co<strong>de</strong> correspondant.Ce repérage est rendu complexe par le fait que le langage humain a plusieursfaçons d'exprimer la même chose. Les mots ne sont pas toujours dans le bon ordre,un mot important peut étre absent, un mot non pertinent peut étre présent, un motpeut ètre un synonyme ou une abréviation d'une expression, ou les règles <strong>de</strong>ponctuation et <strong>de</strong> syntaxe peuvent ne pas avoir été respectées. CARI tente <strong>de</strong>contourner ces difficultés grâce à un traitement préalable <strong><strong>de</strong>s</strong> libellés et à ses<strong>de</strong>ux techniques d'appariements.La figure 1 représente les différents modules du système CART que nous décrirons.Fichier <strong>de</strong> référencePhrases et co<strong><strong>de</strong>s</strong>Fichier d'enquêtePhrases candidatesNormalisationAppariementDirectAppariementIndirectRésultats:Gagnants multiplesPotentielsSans co<strong>de</strong>Résultats:Gagnantfigure 1: système CARTConférences spéciales 87


2.2.2 Fichier <strong>de</strong> référencePour chaque question à chiffrer, il faut en premier lieu créer un fichier <strong>de</strong>référence contenant les libellés en clair typiques (dites phrases) pour unequestion donnée. Ce fichier comprend les phrases et leur co<strong>de</strong> numérique associé.Il est construit à partir <strong>de</strong> manuels <strong>de</strong> nomenclature standard, <strong>de</strong> phrasescodifiées par <strong><strong>de</strong>s</strong> experts provenant d'une enquête similaire conduiteantérieurement ou d'une combinaison <strong>de</strong> ces <strong>de</strong>ux sources comme dans le cas durecensement <strong>de</strong> la population <strong>de</strong> 1991. Idéalement les phrases choisies sontreprésentatives <strong><strong>de</strong>s</strong> phrases les plus fréquemment observées lors d'une opérationd'appariement. II est recommandé <strong>de</strong> conserver les phrases dans leur formeoriginale, avec les erreurs d'orthographe, <strong>de</strong> grammaire et <strong>de</strong> syntaxe. Ce fichier<strong>de</strong> phrases et <strong>de</strong> co<strong>de</strong> numérique est intégré à une base <strong>de</strong> données servant àfaciliter les opérations d'appariement.2.2.3 NormalisationLes phrases du fichier <strong>de</strong> référence et celles <strong>de</strong>vant être chiffrées sont misessous une forme normalisée (terme anglais: parsing) afin <strong>de</strong> permettre àl'ordinateur <strong>de</strong> reconnaitre comme i<strong>de</strong>ntique les réponses qui sont sémantiquementéquivalentes. CART fournit à l'usager un module <strong>de</strong> normalisation très flexible.Dans un premier temps, les phrases sont considérées comme une suite ininterrompue<strong>de</strong> caractères; on ne reconnait pas que la phrase contient <strong><strong>de</strong>s</strong> mots, <strong><strong>de</strong>s</strong> espaceset <strong><strong>de</strong>s</strong> signes <strong>de</strong> ponctuation. Cette suite <strong>de</strong> caractères est analysée par lesystème afin <strong>de</strong> déterminer les mots distincts. Les mots distincts sont ensuitescrutés et mis sous forme normalisée; cette <strong>de</strong>rnière étape réduit le problème <strong><strong>de</strong>s</strong>synonymes, <strong><strong>de</strong>s</strong> mots doubles, <strong><strong>de</strong>s</strong> mots vi<strong><strong>de</strong>s</strong>, <strong><strong>de</strong>s</strong> suffixes différents, etc.L'annexe A donne la liste <strong><strong>de</strong>s</strong> fonctions <strong>de</strong> normalisation offertes par CART.2.2.4 Appariement directLes mots normalisés <strong>de</strong> la phrase candidate sont placés en ordre alphabétique etla phrase est comprimée pour former une "clé d'expression con<strong>de</strong>nsée" dont lalongueur équivaut en moyenne à 35% <strong>de</strong> la longueur initiale <strong>de</strong> la phrase. Enpratique, cette clé est construite par l'élimination <strong><strong>de</strong>s</strong> espaces entre les motsnormalisés et en convertissant en <strong><strong>de</strong>s</strong> co<strong><strong>de</strong>s</strong> <strong>de</strong> 8 bits les caractères (lettres etchiffres) individuels et les combinaisons fréquentes <strong>de</strong> caractères (digrammes ettrigrammes seulement). La clé est utilisée pour chercher un appariement "exact"dans le fichier <strong>de</strong> référence où chaque phrase possè<strong>de</strong> déjà sa clé.2.2.5 Appariement indirectCette métho<strong>de</strong> consiste à chercher l'appariement le plus "comparable" <strong>de</strong> la phrasecandidate dans le fichier <strong>de</strong> référence. Toutes les phrases qui possè<strong>de</strong>nt un ouplusieurs mots normalisés en commun avec la phrase candidate sont extraites dufichier <strong>de</strong> référence. Le système évalue chacune <strong>de</strong> ces phrases ec leur attribueun "pointage". Ce pointage, combiné à certains paramètres établis a priori,permet <strong>de</strong> déterminer s'il existe un appariement "gagnant", <strong><strong>de</strong>s</strong> appariements88 INSEE Métho<strong><strong>de</strong>s</strong> n° 56-57-58


"gagnants multiples" ou "potentiels" dans le fichier <strong>de</strong> référence. Cette métho<strong>de</strong>est inspirée <strong><strong>de</strong>s</strong> travaux <strong>de</strong> Hellerman (1982) et <strong>de</strong> Knaus (1981).2.2.5.1 Calcul d'un poids pour chaque mot normalisé du fichier <strong>de</strong> référenceLe système calcule un poids pour chaque mot normalisé contenu dans le fichier <strong>de</strong>référence. Ce poids donne une indication du pouvoir <strong>de</strong> discrimination du mot,c'est-à-dire si le mot peut conduire à un seul co<strong>de</strong> numérique.Le poids heuristique d'un mot est construit <strong>de</strong> telle façon que le poids diminuelorsque le nombre <strong>de</strong> co<strong><strong>de</strong>s</strong> auquel il est associé augmente. Le poids H d'un mota la forme:E, -Em+eH-où:Em=-E(pi*log,p1) et Eu=.1og,(1)Emest l'entropie du mot. L'entropie est une mesure <strong>de</strong> l'uniformité d'unedistribution. Lorsqu'un mot est particulier à un seul co<strong>de</strong>, l'entropie estnulle; elle atteint son maximum lorsque le mot est associé à tous lespostes (soit les n co<strong><strong>de</strong>s</strong>) <strong>de</strong> la nomenclature.Pi est la proportion d'occurrences du mot dans le fichier pour le co<strong>de</strong>;cette quantité représente donc une mesure <strong>de</strong> la probabilité qu'étant donnéle mot, le co<strong>de</strong> approprié est le co<strong>de</strong> i.xipi= 7Pi'x, est le nombre d'occurrences du mot considéré parmi les phrases qui ont leco<strong>de</strong> iest une petite constante arbitraire pour éviter une division par 0 dansl'éventualité où Eu — 0 (qui correspond à la situation où un mot estparticulier à un seul co<strong>de</strong>).E=-- logk+1 2 k+.1Conférences spéciales 89


2.2.5.2 Calcul d'un pointage pour chaque phrase appariéeChaque phrase du fichier <strong>de</strong> référence qui contient au moins un mot normalisé encommun avec la phrase candidate est considérée comme un appariement potentiel.Une métho<strong>de</strong> <strong>de</strong> pointage a été mise au point afin <strong>de</strong> déterminer la phrase la plus"comparable"; ce pointage est basé sur le nombre <strong>de</strong> mots contenus dans la phrasecandidate qui sont "vali<strong><strong>de</strong>s</strong>" dans le fichier <strong>de</strong> référence, le nombre <strong>de</strong> mots <strong>de</strong>la phrase du fichier <strong>de</strong> référence, et sur le poids <strong><strong>de</strong>s</strong> mots communs aux <strong>de</strong>uxphrases. La formule utilisée est la suivante:P(nombre <strong>de</strong> mots en commun)' * (E poids <strong><strong>de</strong>s</strong> mots en commun)(nombre <strong>de</strong> mots vali<strong><strong>de</strong>s</strong> * (nombre <strong>de</strong> mots dans ladans la phrase candidate) phrase du fichier <strong>de</strong> ref.)En présence <strong>de</strong> <strong>de</strong>ux phrases i<strong>de</strong>ntiques (donc d'un appariement exact), la formule<strong>de</strong>vient:P - (nombre <strong>de</strong> mots en commun) * (E poids <strong><strong>de</strong>s</strong> mots en commun)2.2.5.3 Évaluation <strong><strong>de</strong>s</strong> appariements et choix d'un gagnantAvant <strong>de</strong> procé<strong>de</strong>r à un appariement indirect, l'usager fournit <strong><strong>de</strong>s</strong> valeurs auxtrois paramètres suivants:1: MIN: borne inférieure du pointage2. MAX: borne supérieure du pointage3. PCNT: pourcentage <strong>de</strong> différenceSupposons que m appariements potentiels existent dans le fichier <strong>de</strong> référence.Ordonnons les pointages obtenus par ces phrases en ordre décroissant:P, > P, > > P,Quatre situations peuvent se produire:i) Si P, >- MAX et P, - P, >- PCNTP,alors la phrase ayant obtenu le pointage P, est gagnante et son co<strong>de</strong>numérique est assigné à la phrase candidate.ii) Si P, >- MAX et P, - P, < PCNTP Ialors toutes les phrases i telles que P, >- MAX sont considéréescomme étant gagnantes multiples.iii) Si MIN


Toutes les phrases candidates se trouvant dans les situations ii, iii ou iv ainsique celles qui ne sont pas appariées au fichier <strong>de</strong> référence doivent êtrecodifiées par <strong><strong>de</strong>s</strong> commis. Durant les tests précédant la production, toutes cesphrases candidates disponibles sont étudiées dans le.buc d'améliorer le fichier<strong>de</strong> référence, les règles <strong>de</strong> standardisation et les paramètres d'évaluation <strong><strong>de</strong>s</strong>appariements.2.2.6 Performance <strong>de</strong> CARTLa technique d'appariement direct grâce à son utilisation <strong>de</strong> la clé d'expressioncon<strong>de</strong>nsée est très efficace même lorsque le fichier <strong>de</strong> référence est trèsvolumineux.Pour rendre l'appariement indirect plus efficace, CART i<strong>de</strong>ntifie toutes lesphrases du fichier <strong>de</strong> référence qui contiennent le mot <strong>de</strong> la phrase candidateayant le plus haut poids ec il établit leur pointage. Avant d'i<strong>de</strong>ntifier lesphrases additionnelles contenant le mot ayant le second poids en importance, unpointage potentiel est estimé. Lorsque ce pointage potentiel est inférieur auparamètre MIN la recherche est arrêté. Sinon l'i<strong>de</strong>ntification et le calcul <strong><strong>de</strong>s</strong>pointages se poursuivent.3.1 Généralités3. L'APPLICATION DE CODIFICATION DU RECENSEMENT 1991Le recensement canadien da ,la population et <strong><strong>de</strong>s</strong> logements utilise <strong>de</strong>ux types <strong>de</strong>questionnaires auto-administrés pour recenser plus <strong>de</strong> 10 millions <strong>de</strong> logements.Durant l'établissement <strong>de</strong> la liste <strong><strong>de</strong>s</strong> logements <strong>de</strong> son secteur <strong>de</strong> dénombrement,le représentant du recensement distribue un questionnaire abrégé à 80% <strong><strong>de</strong>s</strong>logements et un questionnaire complet à 20% <strong><strong>de</strong>s</strong> logements suivant unéchantillonnage systématique. Le répbndant retourne par la poste le questionnairecomplété. Le représentant du recensement vérifie les réponses et fait les suivistéléphoniques et en personne nécessaires pour corriger certaines réponsesincohérentes ou incomplètes.Le questionnaire complet est l'équivalent <strong>de</strong> la feuille <strong>de</strong> logement et <strong>de</strong> sixbulletins individuels du recensement <strong>de</strong> la République Française; par contrebeaucoup plus d'information sur les caractéristiques <strong><strong>de</strong>s</strong> personnes sontrecueillies. Le questionnaire abrégé est une version réduite du questionnairecomplet où seulement les questions <strong>de</strong> base sur le logement et les personnes sontincluses (e.g. type <strong>de</strong> logement, logement occupé par un propriétaire oulocataire; relation avec la personne <strong>de</strong> référence, sexe, date <strong>de</strong> naissance, étatmatrimonial légal, première langue apprise). Pour répondre à une question lerépondant doit cocher un cercle, écrire un nombre ou imprimer un libellé enclair.Quelques libellés sont codifiés par <strong><strong>de</strong>s</strong> commis à la préparation pour la saisie<strong><strong>de</strong>s</strong> données. Toute l'information <strong><strong>de</strong>s</strong> questionnaires abrégés.et complets, àl'exception <strong><strong>de</strong>s</strong> libellés déjà codifiés, est saisie en une seule opération sur unepério<strong>de</strong> <strong>de</strong> 4 mois. Pour chaque variable à codifier <strong>de</strong> façon automatique, leConférences spéciales 91


libellé en clair (dite phrase dans la terminologie <strong>de</strong> CART) ainsi que <strong><strong>de</strong>s</strong>variables annexes reliées à la personne et aux autres membres du logement sonttransférées sur une base <strong>de</strong> données pour faciliter l'opération <strong>de</strong> codification.L'application <strong>de</strong> la codification du recensement <strong>de</strong> 1991 est illustrée à la figure2. L'application est hautement intégrée. Elle englobe la codification automatiquepar CART, la codification <strong><strong>de</strong>s</strong> commis assistée par ordinateur, le contrôlequalitatif <strong><strong>de</strong>s</strong> <strong>de</strong>ux types <strong>de</strong> codification et la rectification <strong><strong>de</strong>s</strong> erreurssystématiques. Aucun retour au questionnaire n'est nécessaire et le système prendles décisions dans la majorité <strong><strong>de</strong>s</strong> situations.Phrases candidateset variables annexesCARIAppariement directCARTAppariement indirectTable duContrôle QualitatifRésultats <strong>de</strong> CARTCodificationAssistée par ordinateurTable duContrôle QualitatifRésultats <strong><strong>de</strong>s</strong> commisRésultats <strong>de</strong> laCodificationRectification <strong><strong>de</strong>s</strong>erreurs systématiquesfigure 2: module <strong>de</strong> l'application <strong>de</strong> la codificationLes 10 questions soumises à la codification automatique sont présentées àl'annexe B. De ces questions, 12 applications semblables mais personnalisées ontété établies (une application pour chaque question, une application pour unequestion qui a besoin d'un second fichier <strong>de</strong> référence et une <strong>de</strong>rnièreapplication pour une question qui apparaît sur le questionnaire abrégé et completavec <strong><strong>de</strong>s</strong> variations dans l'information annexe disponible).Les prochains paragraphes détaillent chacun <strong><strong>de</strong>s</strong> modules <strong>de</strong> ces applications.92 INSEE Métho<strong><strong>de</strong>s</strong> n° 56-57-58


3.2 CART - appariement directSeule la phrase est utilisée pour la codification automatique. Les phrases sontordonnées par ordre alphabétique et regroupées par phrase unique. C'est cettephrase unique qui est normalisée et appariée avec les phrases normalisées dufichier <strong>de</strong> référence. S'il y a appariement toutes les phrases correspondantesreçoivent le même co<strong>de</strong> et le résultat est inscrit dans la table du contrôlequalitatif <strong><strong>de</strong>s</strong> résultats <strong>de</strong> CART.Pour le recensement canadien, la codification automatique <strong>de</strong> 9 <strong><strong>de</strong>s</strong> 10 questionsprovient uniquement <strong>de</strong> cette métho<strong>de</strong> d'appariement. Seule la question Lieu <strong>de</strong>rési<strong>de</strong>nce, il y a cinq ans (libellé <strong><strong>de</strong>s</strong> villes et municipalités canadiennes)utilise également l'appariement indirect pour augmenter son taux <strong>de</strong> codificationautomatique.3.3 CART - appariement indirectToutes les phrases uniques non chiffrées sont ensuite soumises à la métho<strong>de</strong> <strong><strong>de</strong>s</strong>appariements indirects. Pour augmenter son taux <strong>de</strong> codification automatique,seule la question Lieu <strong>de</strong> rési<strong>de</strong>nce, il y a 5 ans (libellé <strong><strong>de</strong>s</strong> villes etmunicipalitéS canadiennes) peut obtenir un appariement gagnant, c'est-à-dire unecodification automatique; dans ce cas, toutes les phrases correspondantesreçoivent le même co<strong>de</strong> ec le résultat est inscrit dans la table du contrôlequalitatif <strong><strong>de</strong>s</strong> résultats <strong>de</strong> CART. L'information concernant les appariements"gagnants multiples" et "potentiels" (la phrase appariée, le co<strong>de</strong> correspondantet le pointage) est inscrite au dossier <strong>de</strong> toutes les phrases correspondantes àcette phrase. Cette information sera utilisée à la codification assistée parordinateur. S'il n'y a pas d'appariement ou seulement <strong><strong>de</strong>s</strong> appariements dont lepointage est inférieur au pointage minimal MIN, aucune information n'estconsignée.3.4 CART - notes sur l'exécutionPlusieurs applications ont partagé les mêmes fichiers <strong>de</strong> référence et les mêmesstratégies <strong>de</strong> normalisation. Ces fichiers bilingues furent bâtis à partir <strong><strong>de</strong>s</strong>entrées <strong><strong>de</strong>s</strong> manuels <strong>de</strong> nomenclature, d'un échantillon <strong>de</strong> libellés du recensement<strong>de</strong> 1986 et <strong><strong>de</strong>s</strong> libellés d'enquêtes-ménages courantes.Puisque l'exécution était faite sur une base journalière, il fut possibled'analyser régulièrement les résultats <strong>de</strong> CARI et les phrases non chiffrées. Lesfichiers <strong>de</strong> référence furent mis à jour cinq fois afin d'augmenter le tauxd'appariement automatique et la qualité <strong><strong>de</strong>s</strong> résultats. Aucune amélioration <strong><strong>de</strong>s</strong>stratégies <strong>de</strong> normalisation n'était permise parce leur impact sur la qualité <strong><strong>de</strong>s</strong>résultats était imprévisible.3.5 Codification <strong><strong>de</strong>s</strong> commis assistée par ordinateurL'ordinateur scrute le fichier original <strong><strong>de</strong>s</strong> phrases candidates (ordonnéesalphabétiquement) et prépare <strong><strong>de</strong>s</strong> lots <strong>de</strong> 200 phrases non chiffrées pour lesConférences spéciales 93


commis. Le commis n'a pas accès au questionnaire original, mais l'informationsuivante apparaît sur 2 écrans (voir figure 3 et 4, page Il). Sur le premierécran, il voit la phrase à codifier, les résultats <strong>de</strong> CART (phrases appariées etco<strong><strong>de</strong>s</strong> associés) et enfin les réponses <strong><strong>de</strong>s</strong> autres membres du ménage à la mêmequestion. Sur un <strong>de</strong>uxième écran, le commis peut obtenir les réponses <strong>de</strong> lapersonne à <strong><strong>de</strong>s</strong> variables annexes. Le commis peut soit choisir un <strong><strong>de</strong>s</strong> résultats<strong>de</strong> CART, soit inscrire un co<strong>de</strong> basé sur un manuel <strong>de</strong> nomenclature ou référer lacodification à un expert. Chaque fois que le commis inscrit un co<strong>de</strong>, le systèmeimprime au bas <strong>de</strong> l'écran l'énoncé officiel du manuel <strong>de</strong> nomenclature; le commisdoit lire et confirmer le co<strong>de</strong>. Le résultat <strong>de</strong> la codification est inscrit dansla table du contrôle qualitatif <strong><strong>de</strong>s</strong> résultats du commis.L'ordinateur transfère électroniquement les phrases référées à l'expert <strong><strong>de</strong>s</strong>ervice. L'expert a accès, sur écran, à plus d'information tel les pointages <strong>de</strong>CART et l'information annexe pour tous les autres membres du ménage. De plus, ilpeut consulter <strong><strong>de</strong>s</strong> manuels <strong>de</strong> référence plus spécialisés.3.6. Table du contrôle qualitatif <strong><strong>de</strong>s</strong> résultats <strong>de</strong> CARTLe contrôle qualitatif pour la codification automatique a les mêmes objectifs quecelui pour la codification traditionnelle. Cependant il diffère en étendue carbeaucoup plus d'information sur l'opération est disponible et cette informationpeut facilement être modifiée.Chaque aspect du contrôle qualitatif exploite la nature systématique <strong>de</strong> lacodification automatique car une phrase reçoit toujours le même co<strong>de</strong> s'il n'y apas d'intervention humaine. Donc l'examen d'une seule occurrence d'une phrasesuffit pour établir sa qualité. Les conclusions sur la qualité s'éten<strong>de</strong>nt àtoutes les répliques <strong>de</strong> cette phrase.La table du contrôle qualitatif contient une entrée pour chaque couple phraseco<strong>de</strong>.Un indicateur <strong>de</strong> statut est 'associé au couple. Sa valeur est 1 pour uncouple approuvé a priori, 2 pour un couple vérifié et vali<strong>de</strong>, 3 pour un couplevérifié et invali<strong>de</strong> et 4 pour un couple non vérifié. Durant la production, chaquenouveau couple phrase-co<strong>de</strong> codifié automatiquement est ajouté à la table tandisque la fréquence d'occurrence est augmentée pour chaque couple répété.Puisque les entrées initiales du fichier <strong>de</strong> référence ont fait l'objet <strong>de</strong> testsintensifs, tous les couples appartenant à ce fichier sont inscrits dans la tabledu contrôle qualitatif avec le statut approuvé a priori et ils ne sont pasvérifiés. Ceci rend plus efficace le contrôle qualitatif.Les autres couples sont échantillonnés sur une base <strong>de</strong> priorité. Dès que lecouple phrase-co<strong>de</strong> a une fréquence <strong>de</strong> trois ou plus, une <strong><strong>de</strong>s</strong> répliques estsélectionnée et regroupée avec d'autres couples par lot <strong>de</strong> 200 pour être codifiépar un commis <strong>de</strong> première ligne.Le système compare le co<strong>de</strong> assigné par CART avec celui fourni par le commis. Siles co<strong><strong>de</strong>s</strong> correspon<strong>de</strong>nt, le couple est dit vali<strong>de</strong>. Sinon, la codification estsoumise à un autre commis <strong>de</strong> première ligne. Si le nouveau co<strong>de</strong> correspond àcelui <strong>de</strong> CART, alors le couple esc jugé vali<strong>de</strong>. S'il correspond à celui du94 INSEE'Métho<strong><strong>de</strong>s</strong> n° 56-57-58


PANbIlFsFigure 3: exemple d'un premier écran - codification par commisrarnEiMENT DE LA POPULATION DE 1. 91/CODAGE AUtOZ,f1Sre•mmAN-u AL3 CODAGE MANUEL • PRLNCIPAL DOMAINE D'ÉTUDES 2:00700.0Réponse écrite â co<strong>de</strong>rRENAISSANCE ARCHI I RCTUREPhrases retournées par AL I RARCHITECTUREARCHITECTURE D'ARTBOAT ARCH I I ECTUR_EID: 35016207 141 1 29Données pour la mérite question <strong>de</strong> chaque membre du ménageCases cochées"lYpc Co<strong>de</strong>Co<strong><strong>de</strong>s</strong> (S)élect.267048308Persar.Réponses écritesEnter-?F1 PF2 PF3 —PF4 PF5 PF6 PF7—PF8---PF9--PF10--PF11—PF12.-AIDE HAUT BAS «« >>» PLUS +HAUT +BAS REFER VAUD COMET FINFigure 4: exemple d'un <strong>de</strong>uxième écran - codification par commis• • yr e.g.• vl .11" on* *IwoMiviFS3 PRINCIPAL DOMAINE D'ÉTUDES 12C003.0Nombre d'annéesÉtu<strong><strong>de</strong>s</strong> secondaires primaires : 12Étu<strong><strong>de</strong>s</strong> universitaire : 4Autres étu<strong><strong>de</strong>s</strong> : AUCUNEScolarité <strong>de</strong>puis les neuf <strong>de</strong>ntiers mois : NONDiplôme : =SEC UNSUPBA BACCALA MAITR1SIndustrie : 8531 UNIVERSITY TEACHINGOccupation ou activités importantes : 2711 UNIVERSITY TEACHERSPrincipal domaine d'étu<strong><strong>de</strong>s</strong> : RENAISSANCE ARŒnTEcruRELien avec personne 1 : PERSONNE 1Date <strong>de</strong> naissance : 3001/1927Sem : MID: 35016207 141 1 29Enter-PF1—PF2—PF3 PF4-- PF5 PF6 PF7 —PF8---PF9 –PFIO PF11 PF12—AIDE » FINConférences spéciales 95


premier commis, le couple est jugé invali<strong>de</strong>. Finalement, s'il ne correspond pasà aucun <strong><strong>de</strong>s</strong> <strong>de</strong>ux co<strong><strong>de</strong>s</strong>, le cas est référé à un expert.Ce type <strong>de</strong> contrôle qualitatif i<strong>de</strong>ntifie les différences encre le co<strong>de</strong> établi parun commis et celui <strong>de</strong> CART et ai<strong>de</strong> à repérer les problèmes opérationnels dans les<strong>de</strong>ux types <strong>de</strong> codification. Le responsable <strong>de</strong> la variable qui est aussi unspécialiste dans la nomenclature doit éventuellement faire une revue <strong><strong>de</strong>s</strong>résultats et établir ce qui est vraiment en erreur. Celui-ci aura la possibilité<strong>de</strong> rectifier les erreurs systématiques.En plus <strong>de</strong> faciliter l'échantillonnage pour le contrôle qualitatif, la table ducontrôle qualitatif sert à calculer régulièrement <strong><strong>de</strong>s</strong> taux d'erreur. Leresponsable <strong>de</strong> la variable peut aussi scruter les couples phrase-co<strong>de</strong> dont lesfréquences sont inférieures à 3 et établir la qualité <strong>de</strong> la codification.3.7 Table du contrôle qualitatif <strong><strong>de</strong>s</strong> résultats du commisLa table du contrôle qualitatif pour les résultats <strong>de</strong> la codification par lescommis contient une entrée pour chaque phrase candidate traitée. Cette phrase estaccompagnée du co<strong>de</strong> assigné par le commis, un numéro <strong>de</strong> lot, du numéro du commiset du co<strong>de</strong> final lorsque la phrase a subit un contrôle qualitatif.L'objectif du contrôle qualitatif est <strong>de</strong> déterminer la performance <strong><strong>de</strong>s</strong> commis,d'i<strong>de</strong>ntifier les zones à problèmes, <strong>de</strong> s'assurer que les objectifs <strong>de</strong> qualitésont atteints, <strong>de</strong> donner une rétroaction à l'opération ec <strong>de</strong> prévenir larépétition d'erreur:La métho<strong>de</strong> <strong>de</strong> contrôle qualitatif utilisé est la métho<strong>de</strong> d'échantillonnage parattribut avec une rectification à 100,e <strong><strong>de</strong>s</strong> lots rejetés. En pratique 5 phrasesd'un lot <strong>de</strong> 200 sont vérifiées par un commis <strong>de</strong> première ligne. Comme pour lecontrôle qualitatif <strong><strong>de</strong>s</strong> résultats <strong>de</strong> CART, il n'y a pas <strong>de</strong> vérificationsupplémentaire lorsque les co<strong><strong>de</strong>s</strong> correspon<strong>de</strong>nt. Dans le cas contraire, on faitappel à un <strong>de</strong>uxième commis <strong>de</strong> preMière ligne et finalement à un expert pourdéterminer le co<strong>de</strong> exact.Un lot est rejeté et recodifié dès qu'une phrase a un co<strong>de</strong> en erreur.Le co<strong>de</strong> qui apparaît sur le fichier du recensement est le co<strong>de</strong> établi lors <strong>de</strong> lavérification ou le co<strong>de</strong> original s'il n'a pas été vérifié. Des taux d'erreur sontrégulièrement produits. Le responsable <strong>de</strong> la variable a accès à toutel'information <strong>de</strong> la table et peut apporter les correctifs qui s'imposent.3.8 Rectification <strong><strong>de</strong>s</strong> erreurs systématiquesLes <strong>de</strong>ux tables du contrôle qualitatif contiennent l'histoire <strong>de</strong> la codificationautomatique et <strong>de</strong> la codification par <strong><strong>de</strong>s</strong> commis. Durant son analyse <strong>de</strong>l'information <strong>de</strong> ces tables, le responsable <strong>de</strong> la variable i<strong>de</strong>ntifie les erreurs(<strong>de</strong> préférence systématiques) qui doivent être corrigées. L'analyse peut menerà une .modification <strong>de</strong> la nomenclature pour refléter une nouvelle réalité.L'application du recensement renferme un module <strong>de</strong> rectification qui est utiliséà la fin <strong>de</strong> la production immédiatement avant l'intégration <strong><strong>de</strong>s</strong> résultats à labase <strong>de</strong> données principale du recensement.96 INSEE Métho<strong><strong>de</strong>s</strong> n° 56-57-58


Le module <strong>de</strong> rectification <strong><strong>de</strong>s</strong> erreurs systématiques agit globalement sur lescouples phrase-co<strong>de</strong> en erreur et étend son action sur toutes les répliques ducouple. Des rapports détaillés <strong><strong>de</strong>s</strong> actions prises sont produits afin <strong>de</strong> biencontrôler cette opération.3.9 Résultats et observations3.9.1 Volume <strong>de</strong> codification et taux d'appariementPour la présentation <strong><strong>de</strong>s</strong> résultats, les libellés <strong><strong>de</strong>s</strong> 10 questions soumises à lacodification automatique ont été regroupés sous 7 variables qui employaient <strong><strong>de</strong>s</strong>fichiers <strong>de</strong> référence et <strong><strong>de</strong>s</strong> stratégies <strong>de</strong> normalisation distincts. Le Tableau1 présence ces variables et <strong><strong>de</strong>s</strong> <strong>statistique</strong>s opérationnelles.Tableau 1: Codification Automatique - variables et <strong>statistique</strong>sVariable Traités Appariéspar CARTTauxCARTCodifiéspar commisOrigine ethnique 1,160,491 1,062,015 91.51% 98,476Langage 5,998,021 5,741,294 95.72% 256,727Indien(ne) inscrit(e) 236,501 169,675 71.74% 66,826Lieu <strong>de</strong> rési<strong>de</strong>nce - 5ans (ville/muni.)Principal domained'étu<strong><strong>de</strong>s</strong>Province - Pays -Territoire1,042,951 793,425 76.08% 249,5261,905,959 1,485,196 77.92% 420,763880,077 821,510 93.35% 58,576Religion 4,859,569 4,752,021 97.79% 107,548Total 16,083,569 14,825,136 92.18% 1,258,433Des 16 millions <strong>de</strong> libellés soumis à la codification automatique 14.8 millionsou 92.18% ont été chiffrés par CART (taux d'appariement). Les autres 1.2 millionsont été résolus par une codification assistée par ordinateur.Les taux d'appariement sont regroupés en <strong>de</strong>ux groupes principaux; dansl'intervalle 71% à 78 % et dans l'intervalle 91% à 98%. La différence <strong><strong>de</strong>s</strong> tauxpar variable s'explique par le volume traité, la variation <strong><strong>de</strong>s</strong> réponses, lalongueur <strong><strong>de</strong>s</strong> libellés, l'utilisation d'abréviation par le répondant, lechangement dans les frontières dû à l'effondrement du bloc communiste et le faitque certains libellés (par exemple: un nom <strong>de</strong> municipalité qui est associé àplusieurs co<strong><strong>de</strong>s</strong>) étaient délibérément envoyés à la codification par commis oùl'information annexe pouvait être utilisée pour établir le co<strong>de</strong> exact.La question sur les Indiens inscrits était nouvelle et il était difficile <strong>de</strong>prévoir les réponses surtout parce que plusieurs noms ont récemment subi <strong>de</strong>nombreux changements. La variable Lieu <strong>de</strong> rési<strong>de</strong>nce, il y a cinq ans évitaitl'utilisation <strong><strong>de</strong>s</strong> noms <strong>de</strong> lieu répétés en ne les incluant pas dans le fichier <strong>de</strong>Conférences spéciales 97


éférence. Les noms <strong>de</strong> lieu répétés incluent les lieux géographiques qui ont lemême nom à l'intérieur d'une province ou, si la province n'est pas i<strong>de</strong>ntifiée,le même nom dans plus d'une province. De plus, on excluait un nom comme "Québec"puisque celui-ci pouvait référer à la province ou à la ville. La variablePrincipal domaine d'étu<strong><strong>de</strong>s</strong> avait un nombre <strong>de</strong> réponses très variées, unenomenclature diverse et l'utilisation d'abréviations ou <strong>de</strong> libellés très longs.Le problème avec les longs libellés est qu'une erreur dans seulement un <strong><strong>de</strong>s</strong> motspeut empêcher un appariement direct, seul appariement permis pour cette variable.De plus, il n'était pas possible <strong>de</strong> répertorier toutes les variationsd'épellation et les abréviations <strong>de</strong> ces libellés. Finalement, les longs libelléssont plus sujets à <strong><strong>de</strong>s</strong> erreurs à l'opération <strong>de</strong> saisie <strong><strong>de</strong>s</strong> libellés.3.9.2 Mise à jour <strong><strong>de</strong>s</strong> fichiers <strong>de</strong> référenceDurant la production, il y a eu 5 mises à jour <strong><strong>de</strong>s</strong> fichiers <strong>de</strong> référence. Onestime qu'elles ont augmenté le taux d'appariement <strong>de</strong> 2 points <strong>de</strong> pourcentage,ou alternativement, qu'elles ont réduit le volume <strong>de</strong> codification par <strong><strong>de</strong>s</strong> commisd'environ 25%. Dans certains cas <strong><strong>de</strong>s</strong> phrases ont été enlevées car elles étaientambiguës et elles généraient <strong><strong>de</strong>s</strong> erreurs.3.9.3 Analyse <strong>de</strong> la Table du contrôle qualitatif <strong><strong>de</strong>s</strong> résultats <strong>de</strong> CARTTel que mentionné précé<strong>de</strong>mment, tous les couples uniques phrase-co<strong>de</strong> avaient un<strong><strong>de</strong>s</strong> statuts suivants: approuvé a priori, vérifié et vali<strong>de</strong>, vérifié et invali<strong>de</strong>,non vérifié.Le terme "invali<strong>de</strong>" indique ici qu'il y a différence entre le co<strong>de</strong> <strong>de</strong> CART eccelui établi au contrôle qualitatif. Les différences proviennent parfois <strong>de</strong> co<strong><strong>de</strong>s</strong>erronés dans le fichier <strong>de</strong> référence, <strong>de</strong> phrases trop normalisées, <strong>de</strong> commis quin'avaient pas les instructions les plus récentes ou qui ont fait <strong><strong>de</strong>s</strong> erreurs <strong>de</strong>jugement ou d'inattention. Une autre cause <strong>de</strong> différence est la possibilité quele libellé est associé à plusieurs co<strong><strong>de</strong>s</strong>. Donc ce que nous mesurons ici est unedifférence brute qui doit être analysée avant d'initier une rectification. C'estaussi la fonction <strong>de</strong> l'analyste <strong>de</strong> repérer les quelques erreurs qui ont étémanquées au contrôle qualitatif.Le tableau 2 reflète le volume <strong><strong>de</strong>s</strong> phrases selon les différents statuts. Plus <strong>de</strong>87% <strong><strong>de</strong>s</strong> phrases codifiées par CART étaient approuvées a priori. Moins <strong>de</strong> 1% <strong><strong>de</strong>s</strong>phrases ont été i<strong>de</strong>ntifiées comme ayant un co<strong>de</strong> invali<strong>de</strong>.Tableau 2: Résultat du contrôle qualitatif - toutes les variablesSTATUT,,,,,LlaL,UNIQUES,....leJLOL.,■roc/1(%)11,1,..e.,,,,,te,,,J.,(%) total'a pprouvé a priori 14,787 12,898,773 87.01%Térifié et invali<strong>de</strong> 2,705 89,743 0.61% 0.018%Térifié et vali<strong>de</strong> 34,499 1,735,931 11.71% 0.233%ion vérifié 82,128 100,689 0.67%rotal codifié par CART 14,825,136 100.0%98 INSEE Métho<strong><strong>de</strong>s</strong> n° 56-57-58


3.9.4 Ressources pour le contrôle qualitatifLes ressources planifiées pour le contrôle qualitatif visaient à vérifier 3.0%<strong><strong>de</strong>s</strong> libellés codifiés par CART et 10.0% <strong><strong>de</strong>s</strong> libellés codifiés par les commis. Ce<strong>de</strong>rnier pourcentage était réparti comme suit: 2.5% pour l'échantillon et 7.5%pour recodifier les lots rejetés.Les taux finaux furent <strong>de</strong> 0.251% (tableau 2: [2,705 + 34,499]/ 14,825,136) pourla codification automatique et <strong>de</strong> 10.02% pour la codification par les commis.Le taux <strong>de</strong> 0.251% est attribuable à la haute fréquence d'occurrences <strong><strong>de</strong>s</strong> couplesphrase-co<strong>de</strong> approuvés a priori et au fait que chaque couple unique étaitsélectionné et vérifié seulement une fois. Cette stratégie <strong>de</strong> vérification estimpossible dans une opération traditionnelle <strong>de</strong> contrôle qualitatif. Ce tauxindique donc que l'exploitation <strong>de</strong> toute l'information produite par les systèmespeut augmenter l'efficacité <strong>de</strong> la vérification sans compromettre la qualité.Le tableau 3 illustre, par variable, la fréquence moyenne d'occurrences <strong><strong>de</strong>s</strong>couples uniques phrase-co<strong>de</strong> codifié par CART.La fréquence moyenne <strong><strong>de</strong>s</strong> couples phrase-co<strong>de</strong> approuvés a priori est <strong>de</strong> 872. Lafréquence la plus intéressante est celle <strong><strong>de</strong>s</strong> couples vérifiés et invali<strong><strong>de</strong>s</strong> avecune moyenne <strong>de</strong> 33. Ceci signifie que la correction d'un <strong>de</strong> ces couples corrigeen moyenne 33 erreurs.Tableau 3: Fréquence moyenne <strong><strong>de</strong>s</strong> couples phrase-co<strong>de</strong> par variable etstatutVARIABLE / STATUTAPPROUVÉA PRIORIVÉRIFIÉ ETINVALIDEVÉRIFIÉET VALIDENONVÉRIFIÉOrigine ethnique 528 12 27 1Langage 1,906 167 128 1Indien inscrit 103 13 37 1Lieu <strong>de</strong> rési<strong>de</strong>nce ily a 5 ans (villes)Principal domained'étu<strong><strong>de</strong>s</strong>Province - Pays -Territoire- 19 44 1180 16 29 1588 393 38 1Religion 4,252 25 105 1Toutes les variables 872 33 50 1Pour le prochain recensement, le but sera d'approuver a priori le plus <strong>de</strong> couplespossibles afin <strong>de</strong> minimiser les ressources consacrées au contrôle qualitatif. Lesressources dégagées pourront être utilisées pour mieux analyser les <strong>de</strong>ux tablesdu contrôle qualitatif.Conférences spéciales 99


3.9.5 Rectification <strong><strong>de</strong>s</strong> erreurs systématiquesEnviron 94,000 co<strong><strong>de</strong>s</strong> furent rectifiés par le module <strong>de</strong> rectification. Les co<strong><strong>de</strong>s</strong>provenaient <strong><strong>de</strong>s</strong> <strong>de</strong>ux types <strong>de</strong> codification (automatique et par commis). Laplupart <strong><strong>de</strong>s</strong> rectifications ont amélioré la qualité. Pour les variables OrigineEthnique, Langage et Province-Pays-Territoire, quelques co<strong><strong>de</strong>s</strong> furent changés pourrefléter la nouvelle réalité mondiale, réalité qui changea beaucoup entre laproduction du questionnaire et la fin du traitement <strong><strong>de</strong>s</strong> données du recensement.Notre estimation <strong>de</strong> la qualité finale pour les <strong>de</strong>ux types <strong>de</strong> codification est untaux combiné d'erreur inférieur à 1%; la codification par les commis est lasource principale <strong><strong>de</strong>s</strong> erreurs. Cependant le taux atteint est remarquablement baspuisque dans les recensements précé<strong>de</strong>nts le taux d'erreur se situait dansl'intervalle <strong>de</strong> 4% à 8% dépendant <strong>de</strong> la question.3.9.6 Coût <strong>de</strong> l'opération <strong>de</strong> codificationLe coût <strong>de</strong> l'opération <strong>de</strong> codification est estimé à 2.5 millions <strong>de</strong> dollars soit60% <strong>de</strong> moins que si la codification avait été faite par <strong><strong>de</strong>s</strong> commis uniquement.Le coût ne comprend pas le coût <strong>de</strong> développement <strong>de</strong> CART et le coûtsupplémentaire <strong>de</strong> saisie <strong><strong>de</strong>s</strong> libellés (0.9 million <strong>de</strong> dollars) mais il reflèteles coûts associés au développement <strong><strong>de</strong>s</strong> fichiers <strong>de</strong> référence, <strong><strong>de</strong>s</strong> stratégies <strong>de</strong>normalisation, et au développement <strong><strong>de</strong>s</strong> systèmes pour la codification assistée parordinateur, le contrôle qualitatif et la rectification <strong><strong>de</strong>s</strong> erreurs. La réduction<strong>de</strong> coût provient <strong>de</strong> la réduction du nombre <strong>de</strong> commis <strong>de</strong> 600 à 25 et <strong>de</strong> leurefficacité accrue.4. CONCLUSIONL'utilisation <strong>de</strong> la codification automatique pour le recensement <strong>de</strong> 1991 a étéun franc succès sur lequel nous voulons capitaliser pour le recensement <strong>de</strong> 1996.Nos intentions pour le recensement <strong>de</strong> 1996 sont les suivantes:Le logiciel CART sera utilisé <strong>de</strong> nouveau mais il subira certaines modificationsafin d'augmenter sa polyvalence. Il aura la capacité - <strong>de</strong> spécifier l'ordre <strong><strong>de</strong>s</strong>fonctions lors <strong>de</strong> la normalisation <strong><strong>de</strong>s</strong> libellés; <strong>de</strong> conserver l'ordre original<strong><strong>de</strong>s</strong> mots lors <strong>de</strong> la création <strong>de</strong> la clé d'expression con<strong>de</strong>nsée utilisée parl'appariement direct; et <strong>de</strong> calculer le poids <strong><strong>de</strong>s</strong> mots et les pointages suivantun choix <strong>de</strong> métho<strong><strong>de</strong>s</strong>.Les applications <strong>de</strong> codification <strong>de</strong> 1991 seront légèrement modifiées pour lesrendre plus performantes. Les fichiers <strong>de</strong> référence et stratégies <strong>de</strong>normalisation seront mis à jour. Un nouveau module localisé au début <strong>de</strong>l'application est à l'étu<strong>de</strong>; il déci<strong>de</strong>ra si un libellé doit être soumis à lacodification automatique, être envoyé directement à la codification par lescommis ou recevoir un co<strong>de</strong> intérimaire indiquant qu'il n'y pas suffisammentd'information pour chiffrer. Finalement le manuel <strong>de</strong> nomenclature sera disponibleà l'écran afin <strong>de</strong> faciliter la codification par les commis.Deux nouvelles questions seront codifiées en 1996: Relation avec la personne <strong>de</strong>100 INSEE Métho<strong><strong>de</strong>s</strong> n° 56-57-58


éférence et Lieu <strong>de</strong> travail (codifié au niveau du pété <strong>de</strong> maisons). Pour cesquestions, l'application <strong>de</strong> codification sera plus complexe et fera appel à CARIet à d'autres logiciels d'appariement <strong>de</strong> dossiers (voir Tourigny, Moloney, Miller(1993).Le défi pour le recensement <strong>de</strong> 2001 sera <strong>de</strong> codifier <strong>de</strong> façon automatique les<strong>de</strong>ux <strong>de</strong>rnières questions ayant <strong><strong>de</strong>s</strong> libellés en clair, soit l'Activité économique<strong>de</strong> l'entreprise et la Profession. Ironiquement, l'intention première lors dudéveloppement <strong>de</strong> CART était <strong>de</strong> codifier ces <strong>de</strong>ux questions.BIBLIOGRAPHIECiok R. (1993). "The results of automated coding in the 1991 Canadien Census ofPopulation". Document présenté à "1993 Annuel Research Conference", conférenceorganisée par le Bureau du Recensement <strong><strong>de</strong>s</strong> Écacs-Unis.Hellerman E. (1982). "Overview of the Hellerman 1:401 Coding System". Documentinterne. Bureau du recensement <strong><strong>de</strong>s</strong> Etats-Unis.Knaus R. (1981). "Pattern-based Semantic Decision Making". Texte du livre"Empirical Semantics", édité par Rieger B., Bochum, Allemagne <strong>de</strong> l'Ouest.Tourigny J., Moloney J., Miller D. (1983). "The 1991 Canadien Census ofPopulation exverience with automated coding". Document présenté à la session <strong>de</strong>travail sur la vérification <strong>statistique</strong> <strong><strong>de</strong>s</strong> données. Session organisée par laConférence <strong><strong>de</strong>s</strong> statisticiens européens. Stockholm, Suè<strong>de</strong>.Wenzowski, M.J. (1988). "ACTR - Un système généralisé <strong>de</strong> codage automatique".Techniques d'enquête, vol 14, pp. 317-326.Conférences spéciales 101


ANNEXE ANORMALISATION DES PHRASESLe logiciel <strong>de</strong> codification automatique CART contient un module qui permet lanormalisation <strong><strong>de</strong>s</strong> phrases du fichier <strong>de</strong> référence et du fichier d'enquête. Ils'agit d'une suite fixe <strong>de</strong> 14 fonctions qui, suivant l'application <strong>de</strong>codification, peuvent ou non être utilisées. Les quatre premières fonctionsi<strong>de</strong>ntifient les mots <strong>de</strong> la phrase; les 10 autres fonctions normalisent ces mots.Pour chaque fonction utilisée, le responsable <strong>de</strong> la variable doit fournir uneliste <strong>de</strong> caractères vali<strong><strong>de</strong>s</strong>, <strong>de</strong> mots, <strong>de</strong> mots <strong>de</strong> remplacement ou <strong>de</strong> suffixes.Traitement <strong>de</strong> texte:La phrase est traitée comme une chaîne ininterrompue <strong>de</strong> caractères afin <strong>de</strong>pouvoir éventuellement i<strong>de</strong>ntifier <strong><strong>de</strong>s</strong> mots distincts:Fonction 1: clauses d'exclusion - pour les phrases du fichier <strong>de</strong> référence, letexte qui indique une clause d'exclusion (par exemple,"commis (sauf dansl'armée)") doit être exclu car un répondant ne s'exprime pas <strong>de</strong> cette façon. Lerésultat sera <strong><strong>de</strong>s</strong> phrases normalisées i<strong>de</strong>ntiques dans le fichier <strong>de</strong> référence quiconduiront à <strong><strong>de</strong>s</strong> appariements "gagnants multiples". CARI n'assignera pas un co<strong>de</strong>mais sur ces appariements sera acheminé à un commis qui <strong>de</strong>vra déci<strong>de</strong>r du co<strong>de</strong>approprié.Fonction 2: élimination <strong>de</strong> caractère - permet d'éliminer les caractères inutiles,tels les apostrophes dans la langue anglaise, qui seraient interprétés comme <strong><strong>de</strong>s</strong>indicateurs du début ou <strong>de</strong> la fin d'un mot par la fonction 4.Fonction 3: remplacement <strong>de</strong> caractères - permet <strong>de</strong> remplacer une abréviation parun ou <strong><strong>de</strong>s</strong> mots sinon le sens <strong>de</strong> l'abréviation sera détruit par la fonction 4. Parexemple télévision remplace "T.V."Fonction 4: bris du texte en mots - si un caractère n'est pas dans la liste <strong><strong>de</strong>s</strong>caractères vali<strong><strong>de</strong>s</strong> pour un mot, il indique le début ou la fin d'un mot; parexemple si seulement les chiffres, les lettres et le trait d'union sont vali<strong><strong>de</strong>s</strong>,les <strong>de</strong>ux phrases suivantes seront divisées en 2 mots "T.V." = T V,"anglais/français" — anglais français, ec la phrase "Eleccrician's Apprencice"en 3 mots.Traitement <strong><strong>de</strong>s</strong> motsLa phrase est traitée comme une collection <strong>de</strong> mots. Par conséquent, les fonctionssuivantes s'appliquent à chacun <strong><strong>de</strong>s</strong> mots pris individuellement.Fonction 5: mots à trait d'union - permet <strong>de</strong> préserver en un mot <strong>de</strong>ux mots quiensemble ont un sens spécifique par exemple "post-secondaire". Si le mot à traitd'union n'est pas dans la liste, il est brisé en <strong>de</strong>ux mots; autrement il estremplacé par un nouveau mot.102 INSEE Métho<strong><strong>de</strong>s</strong> n° 56-57-58


Fonction 6: caractères alphanumériques non vali<strong><strong>de</strong>s</strong> - si un mot est formé d'unechaine <strong>de</strong> caractères qui le rend inintelligible, ce mot est supprimé sans autreconsidération. Dans certaines applications, on utilise cette fonction poursupprimer <strong><strong>de</strong>s</strong> mots qui renferment <strong><strong>de</strong>s</strong> caractères numériques.Fonction 7: mots <strong>de</strong> remplacement - cette fonction agit <strong>de</strong> la même façon que lafonction 3; la différence majeure est que la recherche est limitée à <strong><strong>de</strong>s</strong> motsentiers et non à une partie <strong>de</strong> mot. Cette fonction fait en sorte que <strong>de</strong>ux motssynonymes soient reconnus comme pareils pour les fins d'appariement. Cettefonction peut aussi être utile pour corriger les fautes d'orthographe courantes.Fonction 8: mots- doubles - si <strong>de</strong>ux mots, lorsque pris ensemble dans un certainordre, ont un sens particulier, cette fonction permet <strong>de</strong> les remplacer par unseul mot. Par exemple les <strong>de</strong>ux mots "radio" "active" sont remplacés par"radioactive" et "gar<strong>de</strong>" "mala<strong>de</strong>" par "infirmier". Cette fonction peut résoudre<strong><strong>de</strong>s</strong> incohérences dans l'orthographe et contrer une modification <strong>de</strong> l'ordre <strong><strong>de</strong>s</strong>mots qui aurait lieu lors <strong>de</strong> la construction <strong>de</strong> la "clé d'expression con<strong>de</strong>nsée"pour un appariement direct.Fonction 9: mots sans importance - un mot sans importance, tel un article, unpronom, ne contribue pas au contenu sémantique <strong>de</strong> la phrase; il peut êtresupprimé sans autre considération.Fonction 10: mors racine - les fonctions 11, 12 et 13 peuvent faire en sorte que<strong>de</strong>ux mots sémantiquement différents peuvent être réduits à la même racine. Cettefonction examine les- mots pour y déceler <strong><strong>de</strong>s</strong> mots racines. S'il en trouve un, lemot entier est remplacé par un mot substitut ec les trois fonctions suivantes nesont pas activées.Fonction 11: remplacement <strong>de</strong> suffixes - un mot est scruté <strong>de</strong> droite à gauche poury trouver la plus longue forme <strong>de</strong> suffixe se trouvant dans la liste. Si un telsuffixe est repéré, il est remplacé par le substitut prévu. Par exemple, lamarque du pluriel peut être éliminé '<strong>de</strong> telle manière que le suffixe est reconnupar la fonction 12. En anglais on peut remplacer "ies" par "y".Fonction 12: suffixes - habituellement un suffixe ne change pas le contenusémantique d'un mot. Cette fonction scrute un mot <strong>de</strong> droite à gauche pour ytrouver la plus longue forme <strong>de</strong> suffixe se trouvant dans une liste, <strong>de</strong> tellesorte qu'une fois le suffixe enlevé, le mot contienne au moins cinq caractères.Si une forme définie <strong>de</strong> suffixe est repéré, elle est supprimée. Des exemples <strong><strong>de</strong>s</strong>uffixes sont able, aliste, icienne, trice.Fonction 13: consonnes ou voyelles doubles - l'élimination <strong><strong>de</strong>s</strong> consonnes ouvoyelles doubles ne change habituellement pas le contenu sémantique du mot. Cetteélimination peut annuler <strong><strong>de</strong>s</strong> erreurs d'orthographe ou <strong>de</strong> saisie <strong>de</strong> données.Fonction 14: mots répétés - seulement une occurrence <strong>de</strong> chaque mot normalisé estconservé dans la phrase normalisée.Conférences spéciales 103


ANNEXE BQuestions soumises à la codification automatiquePremière langue appriseQuelle est la langue que cette personne a apprise en premier lieu à la maisondans son enfance eu qu'elle comprend encore?Réponse: si la langue esc autre que l'anglais ou le français, la personne précisecelle-ci.Note Cette question apparaît sur le questionnaire abrégé et complet.Langue parlée à la maisonQuelle langue cette personne parle-t-elle le plus souvent à la maison?Réponse: si la langue esc autre que l'anglais ou le français, la personne précisecelle-ci.Langues non-officiellesQuelle(s) langue(s); autre(s) que l'anglais ou le français, cette personnetonnait-elle assez bien pour soutenir une conversation?Réponse: la personne peut préciser jusqu'à trois langues.Lieu <strong>de</strong> naissanceOù cette personne est-elle née?Réponse: si la personne est née dans un pays autre que les 6 pays proposés, elledoit préciser ce pays.Origine ethnique - ancêtresÀ quel(s) groupe(s) echnique(s) ou culturel(s) les ancêtres <strong>de</strong> cette personneappartenaient-ils?Réponse: si la personne appartient à un groupe autre que les 15 groupes proposés,elle peut préciser jusqu'à <strong>de</strong>ux autres groupes.Indien(ne) inscrit(e)Cette personne est-elle un(e) Indien(ne) inscrit(e) aux termes <strong>de</strong> la Loi sur lesIndiens du Canada?104 INSEE Métho<strong><strong>de</strong>s</strong> n° 56-57-58


Réponse: si la case oui est coché, la personne précise la ban<strong>de</strong> indienne oupremière nationReligionQuelle est la religion <strong>de</strong> cette personne?Réponse: la personne précise une seule confession ou une seule religion, ou cochela case "Aucune religion".Lieu <strong>de</strong> rési<strong>de</strong>nce, il Y a 1 anOù cette personne habitait-elle il y a 1 an, c'est-à-dire le 4 juin 1990?Réponse: si la personne n'habitait pas à une adresse dans la mêmeprovince/territoire, elle doit préciser soit l'autre province/territoire ou lenom d'un autre pays.Lieu <strong>de</strong> rési<strong>de</strong>nce. il v a cinq ansOù cette personne habitait-elle il y a 5 ans, c'est-à-dire le 4 juin 1986?Réponse: si la personne n'habitait pas à une adresse dans la même ville, elledoit préciser soit le nom <strong>de</strong> l'autre ville ou le nom d'un autre pays.Principal domaine d'étu<strong><strong>de</strong>s</strong>Quel était le principal domaine d'étu<strong><strong>de</strong>s</strong> ou <strong>de</strong> formation du plus haut gra<strong>de</strong>,certificat ou diplôme <strong>de</strong> cette personne (sans compter les certificats d'étu<strong><strong>de</strong>s</strong>secondaires)?Réponse: la personne indique que le plus haut diplôme est un certificat d'étu<strong><strong>de</strong>s</strong>secondaires ou précise un principal domaine d'étu<strong><strong>de</strong>s</strong> ou <strong>de</strong> formation.Conférences spéciales 105


TARIF 1996LES PUBLICATIONSINSEEL'INFO ATION SUR L'INFOATIONINSEE A CTUALITES'INSEE ACTUALITÉS magazine' est un catalogue trimestriel <strong><strong>de</strong>s</strong>nouveautés <strong>de</strong> l'INSEE : publications, banques <strong>de</strong> données... ; ilest adressé à toute personne ou organisme désireux <strong>de</strong> suivrel'actualité <strong>de</strong> l'INSEE.Abonnement gratuit sur simple <strong>de</strong>man<strong>de</strong> é :<strong>Insee</strong> - Direction généraleAbonnement è <strong>Insee</strong> Actualités - Timbre 1453318 bd A. Pinard - 75675 Paris ce<strong>de</strong>x 14COURRIER DES STATISTIQUESQuatre fois par an cette revue interministérielle vous informe surl'ensemble <strong><strong>de</strong>s</strong> activités du système <strong>statistique</strong> public et sur l'évolution<strong><strong>de</strong>s</strong> outils et <strong><strong>de</strong>s</strong> métho<strong><strong>de</strong>s</strong>.Abonnement 1 an (4 numéros)France : 135 FF - Etranger 169 FF - Étranger par avion : 234 FFBLOC-NOTES DE INSEE INFO SERVICEA la fois un répertoire et un gui<strong>de</strong> <strong>de</strong> l'information économique.Le °thème du mois° fournit <strong><strong>de</strong>s</strong> repères sur un sujet d'actualité.Abonnement 1 an (11 numéros)France : 168 FF- Étranger: 210 FF -Étranger par avion : 330 FFSCRIBECOUne revue bibliographique reflet du fonds documentaire <strong>de</strong>l'INSEE.Abonnement 1 an (6 numéros)France 657 FF - Étranger: 821 FF - Étranger par avion 892 FFLES PÉRIODIQUESLE BULLETIN MENSUEL DE STATISTIQUE10 000 séries mensuelles, trimestrielles et annuelles concernantl'ensemble <strong>de</strong> la vie économique, complétées par les séries rétrospectives<strong><strong>de</strong>s</strong> principaux indices et par le bilan démographique.Abonnement 1 an (12 numéros)France 346 FF Etranger r 433 FF - Étranger par avion 562 FFINSEE PREMIERELe "4 pages" qui, chaque semaine, présente les analyses et lescommentaires <strong><strong>de</strong>s</strong> experts <strong>de</strong> l'INSEE sur un thème <strong>de</strong> l'actualitééconomique et sociale.Abonnement (60 numéros)France 485 FF - Etranger: 606 FF - Étranger par avion r 770 FFECONOMIE ET STATISTIQUEChaque numéro est un recueil d'articles sur un grand thème dudébat social proposant <strong><strong>de</strong>s</strong> commentaires, <strong><strong>de</strong>s</strong> tableaux et <strong><strong>de</strong>s</strong>graphiques ainsi qu'une bibliographie.Abonnement 1 an (10 numéros)France r 414 FF - Étranger 518 FF - Étranger par avion : 633 FFANNALES D'ECONOMIEET DE STATISTIQUECe trimestriel publie <strong><strong>de</strong>s</strong> travaux originaux <strong>de</strong> recherche théoriqueou appliquée dans les domaines <strong>de</strong> l'économie, <strong>de</strong> l'économétrieet <strong>de</strong> la <strong>statistique</strong>.Abonnement 1 an (4 numéros)France r 447 FF Etranger r 559 FF - Etranger par avion 600 FFPour les particuliersFrance : 162 FF - Étranger 202 FF - Étranger par avion 243 FFINSEE METHODESINSEE RESULTATSCette série présente les résultats détaillés <strong><strong>de</strong>s</strong> enquêtes et opérations<strong>statistique</strong>s menées par l'INSEE.Elle s'articule en 5 thèmes :Économie générale (20 numéros)France : 1 454 FF Etranger : 1 818 FF- Étranger par avion 2 075 FFDémographie Société (7 numéros)France 509 FF - Étranger : 636 FF - Étranger par avion : 726 FFConsommation - Mo<strong><strong>de</strong>s</strong> <strong>de</strong> vie (15 numéros)France : 1 091 FF- Étranger : 1 364 FF Étranger par avion : 1 557 FFSystème productif (15 numéros)France 1 091 FF - Étranger : 1 364 FF - Étranger par avion 1 557 FFEmploi - Revenus (13 numéros)France : 945 FF -Étranger : 1 181 FF - Étranger par avion 1 344 FFEnsemble <strong><strong>de</strong>s</strong> 5 thèmes (70 numéros)France : 5 090 FF - Étranger : 6 363 FF- Étranger par avion : 7 259 FFLa <strong>méthodologie</strong> <strong><strong>de</strong>s</strong> travaux <strong>de</strong> l'INSEE et les modèles.Abonnement (15 numéros)France :1 091 FF - Etranger: 1 364 FF-Étranger par avion 1 557 FF


L'INSEE DANS VOTRE RÉGIONVOUS Y TROUVEREZ :® Salle <strong>de</strong> documentation en libreconsultationsi Bureau <strong>de</strong> vente <strong><strong>de</strong>s</strong> publications<strong>de</strong> l'INSEE21 Adresses <strong><strong>de</strong>s</strong> entrepriseset établissements (SIRENE).■ Accès au fonds documentaireet aux banques <strong>de</strong> données <strong>de</strong> l'INSEE.gA Travaux 1 la <strong>de</strong>man<strong>de</strong>...LILLE41,AMIENS A 4,..,2,c4,, AENROUEN - REIMS NANCYPARIS A 5,15e„RENNES As DIJONNANTES ORLÉANS Ati.BESANÇON*ikPOITIERS CLERMONTAFERRANDLYONLIMOGESÀ. MONTPELLIERBORDEAUX A MARSEILLETOULOUSEAJACCIORGLE SERVICE INSEE 241112436 68 07 60 *• indices* informations• adresseset sur minitel 36.15 - 36.16 INSEE*2,23 FlotsALSACECité administrative,me <strong>de</strong> l'Hôpital Militaire,67084 STRASBOURG CEDEXTél. : 88 52 40 40AQUITAINE33, rue <strong>de</strong> Saget,33076 BORDEAUX CEDEXTél. : 57 95 05 00AUVERGNE3, place Charles <strong>de</strong> Gaulle, BP 120,63403 CHAMALIERES CEDEXTél. : 73 31 82 82BOURGOGNE2, rue Hoche, BP 1509,21035 DIJON CEDEXTél. : 80 40 67 48BRETAGNE"Le Colbert",36 place du Colombier,35082 RENNES CEDEXTél. : 99 29 33 66CENTRE43, avenue <strong>de</strong> Paris, BP 6719,45067 ORLÉANS CEDEX 2Tél. : 38 69 53 35CHAMPAGNE-ARDENNE1, nie <strong>de</strong> l'Arbalète,51079 REIMS CEDEXTél. : 26 48 61 00CORSEI. rési<strong>de</strong>nce Carda,me <strong><strong>de</strong>s</strong> Magnolias.BP 907,20700 AJACCIO CEDEX 9Tél. : 95 23 54 54FRANCHE-COMTÉImmeuble "Le Major".83, me <strong>de</strong> Dôle,BP 1997.25020 BESANCON CEDEXTél. : 81 41 61 61ILE-DE-FRANCEINSEE Info Service,accueil, librairie, consultation, travauxTour "Gamma A",195, rue <strong>de</strong> Bercy,75582 PARIS CEDEX 12Tél. (1) 41 17 66 11Direction Régionale7, rue Stephenson.Montigny-le-Bretonneux78188 ST-QUEVIIN-EN-YVELINES CEDEXTél. (I) 30 96 90 99LANGUEDOC-ROUSSILLON274, allée Henri II <strong>de</strong> Montmorency,"Lai Polygone",34064 MONTPELLIER CEDEX 2Tél. : 67 15 70 00LIMOUSINAdresse postale 29, rue Beyrand,87031 LIMOGES CEDEXAccueil : 50, avenue Garibaldi,87031 LIMOGES CEDEXTdl. : 55 45 20 07LORRAINE15, rue du Général Hulot. BP 3846,54029 NANCY CEDEXTél. : 83 91 85 85MIDI-PYRÉNÉES36. me <strong><strong>de</strong>s</strong> 36 ponts,31054 TOULOUSE CEDEXTêt.: 61 36 61 13NORD-PAS-DE-CALAIS130, avenue du Prési<strong>de</strong>nt .1.-F. Kennedy,BP 769, 59034 LILLE CEDEXTél. : 20 62 86 66SASSE-NORMANDIE93-95 rue <strong>de</strong> Géôle,14052 CAEN CEDEXTcL: 31 15 11 11HAUTE-NORMANDIE8, quai <strong>de</strong> la Bourse.76037 ROUEN CEDEXTél. : 35 52 49 I IPAYS DE LA LOIRE105, rue <strong><strong>de</strong>s</strong> Français Libres, BP 2189,44204 NANTES CEDEX 02Tél.: 40 41 75 75PICARDIErue Vincent Auriol,80040 AMIENS CEDEXTél. : 22 91 39 39POITOU-CHARENTES6 rue du Bois d'Amour, BP 55786020 POITIERS CEDEXTél. : 49 88 38 71PROVENCE-ALPES-CÔTE D'AZUR17 rue Menpenti,13387 MARSEILLE CEDEX 10Tél.: 91 17 57 57RHÔNE-ALPES165, rue Garibaldi, BP 3196,69401 LYON CEDEX 03.(Cité administrative <strong>de</strong> la Part-DieulTél. : 78 63 22 02EN OUTRE - MER :ANTILLES-GUYANEINSEE : Direction Inter-RégionaleTour Secid, 7ème étage,Place <strong>de</strong> la rénovation, BP 30097175 POINTE-A-PITRE CEDEXT81. : 19. 590 91 59 80GUADELOUPEINSEE : Service RégionalRue Paul Lacav6, BP 96,97102 BASSE-TERRETél. : 19. 590 81 42 50INSEE - DIRECTION GÉNÉRALE.Unité Communication ExterneTimbre 11501- 18, bd Adolphe-Pinard75675 Paris Ce<strong>de</strong>x 14 - FRANCEGUYANEINSEE : Service Régional1, rue Maillard Dumesle, BP 6017,97306 CAYENNE CEDEXTél. : 19. 594 31 61 00INSEEINSTITUT NATI()NALDE LA STATIS'nousEr Des trumÉco,om■QuEsMARTINIQUEINSEE : Service Régional, Centre DelgresBoulevard <strong>de</strong> la Pointe <strong><strong>de</strong>s</strong> SablesLes Hauts <strong>de</strong> Dillon, HP 64197262 FORT DE FRANCE CEDEXTél. : 19. 596 60 73 60RÉUNIONINSEE : Direction Régionale,15, rue <strong>de</strong> l'Ecole, BP 13,97408 ST DENIS MESSAG CEDEX 9Tél. : 19. 262 48 39 21Tél. renseignements : (1) 41 17 66 11Tél. administration : (1) 41 17 50 50Fax : (I) 41 17 51 77


INSEE MÉTHODESN°56-57-58ACTES DES JOURNÉESDE MÉTHODOLOGIESTATISTIQUE15 et 16 décembre 1993Complément(INSEE+^. Sil SL.1 >•••;OON.,.1OF IA STATISTIQUFFI MS FilÉCONov,Ce volume complète les communications <strong><strong>de</strong>s</strong> " Journées<strong>de</strong> <strong>méthodologie</strong> <strong>statistique</strong> " qui se sont tenues à Parisles 15 et 16 décembre 1993 (publication d'août 1996).Les thèmes abordés sont l'analyse <strong><strong>de</strong>s</strong> données, lescorrections pour la non-réponse, les données <strong>de</strong> survie,le contrôle et la qualité <strong><strong>de</strong>s</strong> données et le traitement <strong><strong>de</strong>s</strong>séries temporelles.Les <strong>journées</strong> poursuivaient un double but :- présenter <strong><strong>de</strong>s</strong> travaux actuels réalisés à l'<strong>Insee</strong> à unlarge public ;- bénéficier du regard critique d'experts venus <strong>de</strong> l'étrangerqui, en retour, présentaient leurs travaux,ISSN 1142 - 3080ISBN 2.11-066379-0IMET056Août 1998 - Prix : 228 F (2 tomes)782110 6G3795

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!