actes des journées de méthodologie statistique - Epsilon - Insee

INSEE MÉTHODESPi' 56 - 57 - 58ACTES DES JOURNÉESDE MÉTHODOLOGIESTATISTIQUE15 et 16 décembre 1993Complément•INSEE

ACTES DES JOURNÉESDE MÉTHODOLOGIESTATISTIQUE15 et 16 décembre 1993Cor--- ment

RÉPUBLIQUE FRANÇAISEINSTITUT NATIONALDE LA STATISTIQUE ET DES ÉTUDES ÉCONOMIQUESDirection Générale18, boulevard Adolphe-Pinard - 75675 Paris cedex 14Directeur de la publication : Paul ChampsaurRédactrice en chef : Michèle GaroCorrecteur : Jean-Pierre MoreauMaquettistes : Mireille Brunet, Régine Burlando, Patrick Lapierre de Mélinville

AVEflTISSEMENTPour des raisons techniques, nous n'avons pu inclure ces trois interventions dans levolume principal "Actes des Journées de Méthodologie Statistique - 15 et 16 décembre1993" paru en août 1996.Leur présentation, non reprise ici, figure dans le chapitre "Synthèse des interventions"page 9 de ce même volume.

SOMMAIREErratum à l'interventionNon-réponse : principes et méthodes(Jean-Claude DEVILLE et Françoise DUPONT - Insee) 7[Session 2 : Corrections pour non-réponse]Calage et redressement de la non-réponse totale : validité de la pratiquecourante de redressement et comparaison des méthodes alternativespour l'enquête sur la consommation alimentaire de 1989(Françoise DUPONT - Insee) 9[Session 2 : Corrections pour non-réponse]L'économétrie des modèles de durée avec SAS : présentation et mise enoeuvre(C. CASES et S. LOLLIVIER - Insee) 43[Session 3 : Données de survie]Recensement de la population du Canada 1991 : expérience avec unsystème de codification automatique(Jocelyn TOURIGNY - Statistique Canada) 85[Conférences spéciales]Actes des journées de méthodologie statistique 5

Erratum à l'intervention deJean-Claude Deville et Françoise DupontNON-RÉPONSE:PRINCIPES ET MÉTHODES( Session 2, page 53 du volume principal )Page 61, lire :L'estimateur par expansion du total d'une variable y sera alors égal à:YL Y k/itk P krPage 63, lire :le modèle log-linéaire-1 : Pk = exp ( - x'k [3) ;- le modèle log-linéaire-0 : Pk =1 - exp ( - x'k [3 ) ;le modèle Logit : Pk = exp ( - x'k [3) / (1 + exp ( - x'k 5 ) ).À partir de la page 64:l'expression Pek est à lire : P.Page 64, lire :A AY ( )Yk 1A —Pk )Y k 1 ^- (13 -n )'r nk Pk ( P )•Yk P (5 )— --k---- — + rester nk P 2 k (r3 )Non-réponse : principes et méthodes 7

Dans cette égalité P (13) est le vecteur des dérivés partielles de Pk (13) par rapport auxcoordonnées deinférieur 1/Nrn .et "Reste" est une quantité dont l'ordre en probabilité estAu lieu de :( L -b )= 0 p(lArn) et (Â - A) = Op(Wii).lire :p - ) Op0Al- ) et( - A). Op(lArn).Page 67, au lieu de :Si on pose vk = wk Zklire :Si on pose vk = Wk ZkX'k est à lire x k dans toutes les formules.8 Insee Méthodes n° 56-57-58

Calage et redressementde la non réponse totale :Validité de la pratique courante de redressementet comparaison des méthodes alternativespour l'enqête sur la consommationalimentaire de 1989F DupontLa pratique courante du redressement des enquêtes réalisées auprès des ménages parl'INSEE, consiste à caler la structure des répondants sur la structure de la populationfrançaise connue à la même période pour des variables qualitatives x i ....x, du type âge,sexe, CS, catégorie d'agglomération, nombre de personnes dans le ménage (1).Cette opération préalable à toute exploitation de l'enquête vise simultanément à éliminer lesdéformations de structure dues à un comportement de non-réponse non uniforme, et àaméliorer les performances des estimations futures tirées de l'enquête en amoindrissant leseffets de l'erreur d'échantillonnage. On intègre à cet effet, la connaissance, sans aléa, destatistiques de même nature (totaux) qui portent sur des variables x i ,....,x, . Lorsque lesvariablessont corrélées aux variables d'enquête, cette opération améliorel'estimation des variables d'enquêtes. On suppose également que lorsque les variablesexpliquent entièrement les disparités dans le mécanisme de réponse, leredressement par calage corrige les biais induit par les déformations de structure dues aucomportement de non-réponse non uniforme.Or, à l'heure actuelle, la justification théorique rigoureuse de cette méthode appeléeméthode n°I dans la suite, n'est acquise que lorsque le comportement de réponse estuniforme.Une démarche alternative naturelle, appelée méthode n°2 dans la suite, correcte sur le planthéorique, consiste à corriger la forme des estimateurs tirés de l'enquête pour tenir compte dela non-réponse dans une première étape, et à améliorer la performance des estimations dansun deuxième temps, c'est-à-dire à traiter l'erreur d'échantillonnage.La première étape requiert une modélisation du comportement de non-réponse pour laquelleles modèles économétriques offrent un cadre général permettant d'utiliser l'informationauxiliaire directement sous forme qualitative ou quantitative.La deuxième étape consiste à caler l'échantillon sur une structure externe considérée connuesans aléa, après avoir divisé les poids de sondage de chaque individu par les probabilités denon-réponse données par la première étape.Cette deuxième méthode est plus lourde à mettre en oeuvre (2) et requiert plus d'informationque la première. Elle nécessite en effet de connaître pour l'ensemble des individus tirés laCorrections pour la non réponse 9

valeur du groupe de variables utilisé pour estimer le modèle de non-réponse. La premièreméthode, en revanche ne requiert aucune information au niveau individuel ou agrégé sur lesnon-répondants.En pratique, les deux méthodes conduisent à élaborer de nouvelles pondérations pour lesindividus qui remplaceront l'inverse des poids de sondage dans l'estimation de statistiquestirées de l'enquête.Le but de cette étude est de déterminer le domaine de validité de la pratique courante, etd'étudier les différences entre les résultats obtenus par les deux méthodes dans un casconcret.partie I : On montre dans cette étude que les deux méthodes coincident exactement dans uncas particulier•. Lorsque la fonction utilisée dans la procédure de calage et la formefonctionnelle du modèle de réponse sont exponentielles, ou lorsque la non-réponse ne dépendque d'une seule variable qualitative qui est prise en compte dans le calage, les deuxméthodes sont équivalentes. Dans ce dernier cas, les deux méthodes se confondent avec unepostratification.partie II : On étudie ensuite l'ampleur• de l'écart entre les deux méthodes lorsqu'elles necoincident pas exactement pour une enquête réalisée par l'INSEE : l'enquête sur laconsommation alimentaire de 1989.NOTES:(I) La structure de référence utilisée pour le calage est issue, sauf proximité avec lerecensement,de l'enquête emploi de mars de la même année, qui fait alors office de minirecensement.La taille de l'echantillon de l'enquête emploi ne permet pas d'obtenir desstructures croisées stables, on se limite donc au calage sur les distributions marginales pourun vecteur de variables du type: âge, csp, catégorie d'agglomération, réalisé par le logicielCALM4R.(2) En effet la méthode n°2 requiert l'estimation par le maximum de vraisemblance du modèlede non-réponse (FROC LOGISTIC) et, surtout, dans l'organisation actuelle du stockage desrésultats d'enquête, l'appariement du fichier de saisie de l'enquête et du fichier de sondageconstitué au moment du tirage contenant les variables xl...xk et les poids de sondage.Lorsque les pondérations sont simples cet appariement n'est pas nécessaire pour appliquer laméthode n°I.10 INSEE Méthodes n° 56-57-58

1-cadre théorique et présentation des deux méthodes de redressement alternatives :1-1 cadre probabiliste :Le cadre probabiliste utilisé pour modéliser les aléas d'échantillonnage et du processus deréponse est le suivant:unité'ère phase:tirage del'échantillonn'appartient pas àl'échantillone - =02nde phasemécanisme deréponserépond à l'enquêter = 1appartientl'échantillone =1ne répond pas à l'enquêter = 0On noteT, = P(e, = 1) probabilité d'inclusion de l'unitéd'échantillonnage ip, = P(r, = 1) probabilité de réponse de l'unité is :r :population cibleensemble des n unités échantillonnéesensemble des m répondantsL'unité échantillonnée est le logement, mais l'unité d'observation est le ménage. Lespondérations seront donc in fine relatives au ménage. Les deux méthodes de redressementétudiées consistent à modifier les poids initiaux associés à chaque ménage et découlant du plande sondage selon deux stratégies utilisant toutes les deux de l'information auxiliaire.1-2 calage simple en l'absence de non-réponse:On supposera dans la suite que l'on s'est ramené, ce qui est toujours possible, au cas où lesvariables qualitatives sont déjà sous la forme de variables indicatrices de modalités.Corrections pour la non réponse 11

On dispose d'information aux aire sous la forme de k variables x,x, quantitatives ouqualitatives :-au niveau individuel sur l'ensemble de l'échantillon interrogé,-au niveau de la population, sous la forme du vecteur des totauxX = ( X„ , X„ )x x,1 - •eU EU I Et1) ,supposé connu sans aléa où x, = (x„ .x,„ ).On souhaite estimer le total sur la population U d'une variable y. L'estimateur naturel de cetotal Y= y, en l'absence d'information auxiliaire est donné par = E , estimateurEU ES 7;d'Horvitz-Thompson, qui estime sans biais le total Y. Or l'aléa d'échantillonnage se traduitY,par le fait que 11 — va varier dans un intervalle centré enles 7,Y de longueurproportionnelle à son écart-type. De la même façon .X=—2- va varier dans un intervallecentré en X de longueur proportionnelle à son écart-type . Or on connaît avec certitude letotalX. Si la variable, (ou plus généralement le vecteur de variables ), y est corrélée auvecteur de variables x dans la population, une partie du gain de précision qu'il y a entre,estimer le total X par--L• et utiliser la vraie valeur, peut être répercutée sur l'estimation deI ESY pour en améliorer la précision.La solution naturelle consiste à utiliser l'estimateur par régression de y sur le vecteur devariables x = (x, ,....x„ ) . Soit:— x, B„, = B ( X —où B représente le coefficient de la regression de y sur le vecteur de variables x = (x, x, )estimé sur l'échantillon s.En réalité, la solution la plus générale à ce jour, qui recouvre la précédente consiste àconstruire une famille d'estimateurs ( estimateurs par calage ) aussi proches que possible del'estimateur d'Horvitz-Thompson (au sens d'une distance sur les poids), qui réconcilieexactement l'estimateur et la vraie valeur pour le vecteur de variables xOn recherche alors les poids (w, ) du nouvel estimateur vérifiant w = X les plus(proches possibles des poids de sondage initiauxT ,12 INSEE Méthodes n° 56-57-58

edressement ( -w,sous contrainte:(1 \Le choix de la distance entre les poids initiaux d, =—T ,et les poids aprèscaractérise la méthode. On résoud ainsi un programme de minimisationmin E H(d,,w,) où H(.,.) représente une pseudo distance sur 91,,essous la contrainte x, w. = XPour assurer l'existence et l'unicité d'une solution, il est nécessaire d'imposer des conditions derégularité sur la fonction H(.,.)En pratique, on réduit donc la classe des pseudo distances possibles aux fonctions de la forme:H(d,w)=d.T(--d-w )en imposant des conditions de régularité supplémentairesT est une fonction convexe 91T(1) = T'(1) =T"(1) = 1Parmi les pseudo distances vérifiant ces conditions, on trouve à une constante près les deuxformes du chi deux selon que la référence est w ou d.La résolution du programme de minimisation à l'aide des multiplicateurs de Lagrange b conduitau système équivalent suivant :( 1 )' -=-= F(xh)d,(2) x,w, = XIESoù F est reliée à T par F(u) = T'' (u)Les nouveaux poids apparaissent comme une correction multiplicative des poids initiaux auniveau individuel basée sur la valeur du vecteur des variables auxiliaires (x,, xh.) pourchaque individu.Différents choix sont possibles pour F . Les différentes fonctions F ainsi que les fonctions T etH associées sont:Corrections pour la non réponse 13

F H TlinéaireF (x) =1+ xH(w,d)= (w - d)22d1T(u)= -(u- 1)2 2exponentielleouraking ratiolinéairetronquéeF (x) = exp(x)F (x) = 1 + xsi xe[L,U]F (x) = 1 + L si xd,F (x) = 1 + U si x>UwH (mi ,d)= w .10g(d_)-w +d T( r) = u logu- u +1(w-d)'1H (w ,d)T(u)= - ( u - 1)-2d2si xe[L,U]sivi —ci e[L,U]T(u) = u e, sinon11(14i,d)= o sinonlogit 1 cr ,, iU-1.(I-1 )cxp(.4, ) ' 'uavecU - I.A-(1- L)(./ -1)1(14',d)=dT(—)ino.ro- L)Lcg=+(L-1)Logb7 Lr .'T(u) = J. sinonsi ue [L,U)chi-deuxF (x) --= (1- 2x)-1''(w -d)H (w,d) -TOI). (u - 1)-2w2nhellinger » (x) = (1 - x) ' H (,,, ,d) = (JI; - ji )2 T(I) = (i,',71 -1 )2entropieF(x) = (1+ x)-',d) dLog () (w - d) 7( n)=-Log(u)± n -114 INSEE Méthodes n° 56-57-58

Lorsque F est linéaire, l'estimateur par calage correspond à l'estimateur parrégression qui apparaît dans ce cas comme une présentation duale possible de laméthode linéaire.Lorsque F est exponentielle, le calage correspond à la technique du raking ratio.La justification théorique de l'emploi de l'estimateur par calage est asymptotique etrepose sur diverses hypothèses, dont la plus importante est la convergence deE XL vers Y à la vitesse de —,— lorsque n —> x et N —>Lorsque les hypothèses sont vérifiées, les différentes méthodes d'estimation par calagesont asymptotiquement équivalentes (voir DEVILLE SARNDAL 1992 ), c'est àdire que lorsque n —> co et N > ce , les résultats obtenus à l'aide de cesdifférentes méthodes d'estimation se rapprochent. Des comparaisons menées sur desenquêtes INSEE confirment la proximité des résultats obtenus à partir des différentesméthodes. Les variances de ces estimateurs, et donc leurs précisions, sont égalementéquivalentes asymptotiquement.Ces méthodes peuvent être mises en oeuvre facilement grâce à la macro CALMAR(CALage sur MARges), écrite en langage SAS par O.SAUTORY (voir O.SAUTORY1993).1-3 la pratique courante du redressement des enquêtes en présence denon-réponse : calage simple (méthode n°1):Le calage a pour but de réduire les effets de l'aléa d'échantillonnage. Toutefois, lapratique courante pour le redressement des enquêtes consiste à appliquer cetteméthode à l'ensemble des répondants, de façon à réduire les effets de l'aléad'échantillonnage tout en corrigeant simultanément les déformations de structureinduite par la non-réponseLe calage effectué grâce à l'information auxiliaire X = conduit à des poids w,obtenus à partir de l'une des fonctions F mentionnées précédemment, qui vérifient:(3)E Xi = XiErF(x,b)(4) =Ti3(donc estimé), c'est à dire min.où )3 représente le taux de non-réponse observéCorrections pour la non réponse 15

n°2).1-4 une démarche correcte : le redressement en deux étapes (méthodeLa non réponse est traitée comme une phase additionnelle de tirage. L'estimateurnaturel du total Y est l'estimateur sans biaisErcomportement de réponse à travers la probabilité de réponse p,.qui tient compte duAyant corrigé l'estimateur pour intégrer la non-réponse, on peut utiliser l'informationauxiliaire X pour limiter les effets de l'aléa d'échantillonnage. On modifie donc lespondérations1des individus en des pondérations w * définies par :(5) Exi wi *, XiEr(6) * F * (x,b*)où F* est une des fonctions possibles pour le calage. La justification asymptotique del'emploi de l'estimateur par calage est alors acquise, si l'on considère le sondage endeux phases que constitue le tirage des répondants. Il suffit alors de remplacer n par m,d'où m —> xetN —> 09 .Cependant, en pratique, p, est inconnu et doit être estimé dans une première étape. Ladémarche correcte pour effectuer le redressement consiste donc à :1- modéliser le comportement de réponse de façon à estimerp, . dansune 1 ère étape, et modifier les pondérations des individus en divisant les poids desondage par les probabilités de réponse estimées : p .2- caler l'échantillon des répondants sur une structure connue pour lapopulation totale, en partant des poids de sondage modifiés pour tenir compte de lanon-réponse.Les pondérations résultantes w, à utiliser dans les estimations issues de l'enquête sontalors données par:(5)(6)'F * (x,b*)où F* est une des fonctions possibles pour lecalage.16 INSEE Méthodes n° 56-57-58

En pratique, on utilise pour p, un modèle paramétrique de typep, = G(z,c) où(z i zh ) représente un vecteur de variables auxiliaires. En général, la condition p, E[0,1] conduit à choisir pour G une fonction de répartition. On utilise ainsi courammentun modèle LOGIT qui correspond à la fonction de répartition d'une loi logistique et lemodèle PROBIT qui correspond à la fonction de répartition d'une loi normale. On peutégalement ne pas inclure la contraintep, o [0,1] dans le modèle, et envisager parexemple une modélisation linéaire p, = zic ou exponentielle p, = exp(z,c).Le paramètre c est alors estimé par une méthode convergente. La plus habituelle est laméthode du maximum de vraisemblance, qui présente l'avantage d'être facilement miseen oeuvre lorsque G est la fonction de répartition de la loi logistique ou de la loinormale ou encore de la loi de Gompertz.NB : La pratique courante, ou méthode n°1, correspond alors par construction,d'après ce qui précède, au cas particulier d'un modèle de non-réponse uniforme pour laméthode n°2, où la probabilité de non-réponse constante est estimée par m/n.1-5 quelques remarques sur la mise en pratique de ces deux méthodes :La méthode n°1 nécessite de connaître :- les totaux X, = E x„Xk = E x,, pour la population- les valeurs des variables x,xk au niveau individuel pour lesrépondants seulement.La méthode n°2 nécessite de connaître :4, pour le calage :- les totaux X, X„ pour la population- les valeurs des variables x,....x, au niveau individuel pour lesrépondants+pour l'estimation du modèle de réponse- Simultanément les valeurs des variables z, z, au niveau individuelpour les répondants et les non-répondants dans le même fichier.Corrections pour la non réponse 17

ésumé de l'information nécessaire:méthode n°1Vi E rméthode n'2ViesX, X„Iode 111 présente donc deux avantages:-••,iint moins d'information,- el s icgère dans sa mise en oeuvre il n'y a pas deestimer..a„, 7- oeuvre..11;07.nt duesde d -ratioluounetiuideF.

On établit également que lorsque les deux techniques sont identiques, elles sont aussiéquivalentes à une nouvelle instance de la méthode n°2 appliquée cette fois avec lesprobabilités de réponse p, = exp(2,e) exactes, (non estimées).Nous verrons que les deux techniques coincident également lorsque la variable prise encompte dans le calage est une variable qualitative, et qu'elle recouvre les variables dumodèle de réponse. Les deux méthodes réalisent alors une poststratification.La méthode usuelle (méthode n°1) n'admettant pas de justification théorique naturelledans le cas général, l'objet de la deuxième partie est d'étudier l'écart entre les deuxméthodes lorsqu'elles ne coincident pas en pratique. Nous comparerons ainsi lesrésultats obtenus pour l'enquête sur la consommation alimentaire réalisée en 1989 par1-6-a Lorsque les fonctions de calage F et F* et la forme fonctionnelle du modèlede réponse G sont exponentielles : les deux méthodes coincident exactement.Méthode n°1: pratique courante, calage simple:F(x,b)Les poids w, sont donnés par l'équation en l'inconnue b :TiP(7), (x b)YI)ou p• soit lorsque F(u) = F * (u) = 0(u) = exp(u):(8) exp(x,b — log(h)x,Méthode n°2:Les poids w, * = F * (xb) sont donnés par l'équation en l'inconnue h*:(9)F * (x,b*)77C;(z,i')Corrections pour la non réponse 19

♦ soit lorsque F(u) = F * (u) = G (u) = exp(u):(10)'Grexp(x,b *—z,ê) 2c,xOn montre (voir annexe) que lorsque les variables de calage recouvrent les variablesexp (x,a)z, „ du modèle de réponse, la solution de l'équation= Xlorsqu'elle existe est unique.Dans cette situation, on peut toujours se ramener au cas où z = ,r.Par unicité de la solution on obtient alors, lorsque la variable constante figure parmiles variables explicatives,h=b*—c*—(log(P),0, 0)F* *Les poids w, = F(x b) (x b )et w *1,p TP,coincident exactement.sont donc égaux et les deux méthodesLa méthode n°2 appliquée avec les probabilités de réponse exactes est alorsidentique aux deux précédentes par un raisonnement analogue. Les poids w, **sonten effet déterminés à partir de l'équation(9)F * (x,b**),„ TG(z,e)L'unicité de la solution de l'équationwi w, * , w, **exp(x a), = X conduit à l'égalité des poids7,20 INSEE Méthodes n° 56-57-58

1-6-b lorsque le calage s'effectue sur la base d'une variable qualitative quiexplique entièrement le mécanisme de réponse, les deux méthodes coincident etréalisent une poststratificationDans ce cas en effet, les formes fonctionnelles non tronquées donnent toutes desparamétrisations équivalentes. Le choix de F d'une part, de F* d'autre part et enfin deG sont alors indifférents.On peut donc se ramener au cas où F=F*=G=exp et appliquerle résultat précédent (voir annexe).1-7 Cas de fonctions F F* et G quelconques :,c*, X, X k étant donnés, les deux méthodes consistent à résoudre kéquations non linéaires en les k inconnues que sont b = (b, „ bk )' pour la méthoden°1 ou b* =*, ....bk *)' pour la méthode n°2.Une interprétation géométrique va permettre de mieux comprendre le lien entre lesdeux méthodes.On note d,— les poids initiaux, corrects en l'absence de non-réponse.1/ Calage en l'absence de non-réponseLe vecteur (w, ,w„)' des poids, obtenu par la méthode n°1, vérifie{ E x.„ 3v1 = x,(1)soit k conditions affines sur le vecteur (w,w„ )'x,„ w, = X kies(2), w F (x,b)T ,Corrections pour la non réponse 21

(w i x, = X,+La condition (1) peut se réécrire où ( ) représente le(wlxk ) = Xkproduit scalaire usuel sur 9r et x, = (x„ , x„, )', x, = (x,„ , x„, )'les vecteurs contenant les valeurs des variables auxiliaires x, v, pour les ninidividus répondants. Elle s'interprète comme l'appartenance de w à un espaceaffine de dimension n-k dans 9r .+La condition (2), s'interprète elle, comme l'appartenance de w à une courbeparamétrée par b soit k paramètres dans 9rLe vecteur d = (c 1,, d „)' des poids initiaux vérifie lui par définition de'Ÿ"l'estimateur d'Honvitz-Thompson X =X.1l d i x„SESIESdlx, = À>,soit :, qui correspond à l'appartenance de d à un espaceldixk)= Xkaffine de dimension n-k parallèle à celui défini par (1).Lorsque l'information auxiliaire consiste en une seule variable (k=1), le vecteur despoids est déterminé par l'intersection d'un hyperplan et d'une courbe paramétrée par unparamètre. Les poids initiaux sont situés eux, sur un hyparplan parallèle.Une représentation graphique dans le cas où n=2 permet de mieux comprendre:22 INSEE Méthodes n° 56-57-58

vl(*)=X(v1x)=X2/ Les deux méthodes en présence de non-réponse :L'ensemble des m répondants étant donné, ainsi que les valeurs de la variable auxiliaire,le vecteur des poids w = ( w1„wm )' obtenu par la méthode n°1 est déterminépar le système à résoudre en b :(3) w = X■ sous-espace affine de dimension m-k dans 9-rF(x b)(x.b)(4) w ci, courbe paramétrée par m paramètres dans 9.i"'7;17)soit l'intersection d'un sous-espace affine et d'une courbe paramétrée.Le vecteur des poids w* obtenus par la méthode n°2 est déterminé par le systèmed'équations :Corrections pour la non réponse 23

(5) I x, }v, = X sous-espace affine de dimension m-k dans 9I"'lér(6) w *171F * (x.,b*) F*(x,b*) dTpG(x,(?)courbe paramétrée par m paramètres danssoit l'intersection d'un sous-espace affine et d'une courbe paramétrée par b*, c étantfixé dans une étape précédente.une représentation graphique dans le cas où m=2 permet de fixer les idées :où :Dl est la droite d'équation (v1 x) = Id, x,D2 est la droite d'équation -1,1x) = E dG(x,c)D3 est la droite d'équation (v1 x) = X24 INSEE Méthodes n° 56-57-58

• L'égalité des deux méthodes 1 et 2 lorsque F(u) = F * (u) = G(u) = exp(u)correspond au fait que les courbes paramétrées d ,M(E) et M(t) , N(b*) sont lesmêmes lorsque cette triple égalité est vérifiée.♦ La représentation graphique peut être utilisée pour un cas plus général oùl'information auxiliaire se réduit à une variable quantitative qui ne prend quedeux valeurs xl et x2. On suppose alors en outre que les poids initiaux ne prennentque deux valeurs, d, et d, , pour la même partition des individus que celle définie pourx, et c'est à dired = d, .(=> x, = x, etd, = d, oax, x,Les poids w (resp w *) ne prendront que deux valeurs notées w, et w, (resp w, * etw, *). De même, les probabilités de réponse G(x,'è) ne prendront que deux valeurs p,et p,. La représentation graphique précédente correspondant à m=2 reste donc valide.Lorsque m —> Dc et N —> ooconverge asymptotiquement vers X (cfiE,DEVILLE, SARNDAL 1992). Ainsi la droite D2 se raproche de D3 etasymptotiquement on a : D2=D3. On s'attend donc à ce que la correction de nonréponse ait une plus grande influence que le calage et en particulier que le choix de Gait une plus grande influence que le choix de F*, On retrouve ainsi graphiquement lefait que le choix de la fonction de calage devrait peu influer sur les poids finaux dans laméthode en deux étapes.1-8 retour sur l'utilisation naive de CALMAR dans le cas général interprétationen termes d'estimation du modèle de réponse de la méthode de redressement enune étapeAsymptotiquement (m —> x et N —> oc ), les corrections pour non réponse sontfinies contrairement aux correction pour calage qui sont en !h/ni (voir DE VILLE,DUPONT 1993 ).Corrections pour la non réponse 25

Les équations de calage en une étape (7)' d,xf (z,b) — X peuvent de cefait s'interpreter comme des équations estimantes des probabilités de réponse dans1le cas où les probabilités de réponses sont de la forme p, =F(x,c)1CrEn effet, si c était parfaitement connu, l'estimateur corrigé de la non-réponse s'écriraitX = Ed,x,F(x,c) . L'équation (7)' se réécrirait alors :'Er(a) z, F(x,b) =I É-17 (x,(c+k))di x,F(x,c) • • = X où b = c +kF(x,c)Cette équation apparait simplement comme une équation de calage avec une fonctionde calage dépendant de l'unité i. Tout se passe en effet comme si on partait de poidsde sondage d; * = d,F(x,c) et que l'on réalise un calage pour obtenir des poids de la(u) F(x,c + u)forme w, = d, * F,(x,X) avec 17,F(x,c)La solution de l'équation (7)' reçoit alors une inteprétation naturelle assez simpleSupposons que nous disposions de la valeur des z, sur l'échantillon s tiré toutentier, nous pourrions estimer un modèle de réponse postulé sous la forme1Pi = . son estimation par le principe du calage (voir DEVILLE, DUPONTF(x,c)1993), conduirait à résoudre(b)X= E d i ri F(xi i';) dx,F ,I ESCr(x'(c + 6)) avec "c': = c +éF(x,c)1La quantité é, tout comme la quantité X. est d'un ordre infiniment petitfttt •dLogF F'(x,c)Introduisons les quantités f,et linéarisons les deux équationsdu L,5 F(x,c)(a) et (b)26 INSEE Méthodes n° 56-57-58

Si T est la matrice T= d,F(x,c)f,x, x, et ksd F(x, x„ on aX= — ji2",) etet par conséquent :b=c+X=ê-6+X=ê+T -1 (X— k",)1=kLe vecteur b de (7)' apparait donc comme un estimateur de c dont la variance est dumême ordre de grandeur que celle de ê quoique, en principe, plus grande.Ainsi donc l'usage naif de CALMAR reçoit une interprétation en termed'estimation de modèle de réponse. Toutefois, les fonctions de calage habituelles nes'interprètent pas à l'exception des fonctions exponentielles et logit comme provenantde modèles de réponse très naturels.La prépondérance de la correction de non-réponse sur le calage, joue également unrôle essentiel pour le calcul de variance des estimations construite à partir duredressement en une étape. En effet, la récriture de l'équation (7)' en (a) permet decalculer la variance comme celle d'un estimateur par calage dont les poids initiauxincluent une correction pour non-réponse. Les poids initiaux conduisent alors à unestimateur sans biais qui converge vers la vraie valeur lorsque m --> co et N co. Leshypothèses permettant le calcul de variance pour l'estimateur par calage sont alorsvérifiées.L'estimation de la variance nécessite de connaitre c. Il suffit alors de remplacer c parson estimation convergente ê .La prédominance de la correction de non-réponse par rapport à la correction pourerreur d'échantillonnage conduit à réexaminer le choix des données externes surlesquelles on cale une enquête. L'interprétation en termes de modèle de réponseconduit à choisir des variables qui expliquent bien le comportement de réponse. Lecalage classique, conduit à choisir des variables qui expliquent bien les variablesd'interêt. Une voie prometteuse à explorer consisterait à associer les deux idées : si zCorrections pour la non réponse 27

explique bien la réponse et x explique bien la variable d'interet et que le total est connu,on peut imaginer reponderer en résolvant les équations :Z = >d; z,F(x,b)iEr1-9 remarques sur la modification des poids de sondage initiaux avant calagedans la méthode en une étape (méthode n°1):+La pratique courante consiste comme on l'a vu à corriger d'un facteur n/m les poidsde sondage initiaux avant calage. on détermine alors les nouveaux poids wF(x,b)Td3par la résolution de l'équation de calageF (xi b)Tl)= X+L'interprétation en termes d'estimation des probabilités de réponses inclinerait àb)chercher des poids (w,)iE, sous la forme wi = F(xi et à résoudre l'équation deTiPcalage F(x,b) x = X .En réalité on peut montrer que pour les fonctions de calage F énumérées en 1-2, cesdeux calages alternatifs donnent les mêmes poids finaux (w ) dès lors que lavariable constante appartient à l'espace vectoriel engendré par les variables auxiliairesx, ...x,. Ceci est le cas, dès qu'il existe une variable qualitative dans les variablesauxiliaires. La variable constante est en effet obtenue comme la somme des variablesindicatrices associées à la variable qualitative.On établit en fait que la multiplication des poids initiaux par une constantequelconque ne modifie pas les résultat du calage en termes de poids finaux (àcondition de modifier en conséquence les bornes qui portent sur les rapports de poidsdans les méthodes bornées). Le lien entre les paramètres b des deux méthodes avec etsans modification préalable des poids de sondage s'écrit simplement dans la méthode28 INSEE Méthodes n° 56-57-58

exponentielle. Les deux vecteurs b ne diffèrent en effet que sur la direction donnée parla variable constante .Toutefois, la multiplication des poids initiaux joue un rôle au niveau de la résolutionnumérique des équations de calage. En modifiant les poids initiaux d'un facteur n/mon modifie le point initial de la résolution. Cette modification prend en compte la plusgrande partie de l'effet de la variable constante dans F (x,b). On évite ainsi que lasolution en b comporte de trop grandes valeurs dues à une grande correction sur lavariable constante lorsque le taux de non réponse moyen est fort et que lecomportement de réponse est relativement homogène.( En effet ceci revient à dire quela plus grande partie de x,b est donnée par le vecteur constant ). La modification despoids initiaux effectuée en pratique donne alors une valeur initiale plus favorable. Larésolution sans correction préalable peut en effet se réveler impossible lorsque le tauxde non réponse est trop important.2- comparaison empirique des deux stratégies de redressement:résultats obtenussur une enquête réalisée par l'INSEE, l'enquête sur la consommation alimentairede 1989.L'échantillon est obtenu par un tirage à plusieurs degrés dans la base de sondage Bconstituée de la réunion du fichier du recensement de 1982 (B1) et d'une liste deslogements construits depuis 1982 tenue à jour (B2) : on souhaite enquêter desménages ordinaires (population cible), pour cela on tire des logements.En 1982, il y a équivalence entre l'ensemble des résidences principales occupées pardes ménages ordinaires et l'ensemble des ménages ordinaires. A la date de l'enquête lepassage entre logement et ménage ordinaire est réalisé en éliminant après constat sur leterrain, les logements détruits et les logements vacants ou occupés à titre de résidencesecondaires à la date de l'enquête qui sont traités comme des unités hors champ.Corrections pour la non réponse 29

Résidences Résidences logements logementsPrincipales Secondaires Vacants détruitsresidences secondaireslogements vacantslogements à construireunités appartenant au champ de l'enquêteunités conservées dans l'étudeComme on l'a vu en 1-5, la méthode de redressement en deux étapes nécessite deconnaitre la valeur des variables utilisées dans le modèle de réponse pour les nonrépondants.Les variables utilisées pour estimer le modèle de réponse doivent êtredisponibles pour les répondants et les non répondants, elles proviennent parconséquent nécessairement de la base de sondage. Or l'information sur la partielogements neufs de la base de sondage ne porte que sur la date d'achèvement et lemaitre d'oeuvre. La méthode de redressement en deux étapes ne peut donc pas êtreappliquée aux unités extraites de la base de sondage logements neufs. Ces unitésseront donc exclues de l'étude ainsi que les logements non principaux au moment durecensement. Celle ci ne portera donc que sur les unités extraites du recensement de1982, correspondant à des résidences principales en 1982.Ce problème apparaît en réalité de manière générale pour toutes les enquêtesréalisées par l'INSEE à partir de l'échantillon maître. La procédure deredressement en deux étapes ne peut s'appliquer puisqu'elle requiert l'élimination deslogements neufs tirés. On voit donc l'importance de l'enjeu de l'équivalence des deuxméthodes de redressement démontrée précedemment qui valide du même coup la seuleméthode de redressement applicable qui correspond à la pratique courante.L'étude qui suit a pour objectif de donner une idée de la divergence entre les deuxtechniques de redressement lorsqu'elles ne coincident pas dans le contexte desenquêtes réalisées par l'INSEE. Le choix de l'enquête sur la consommation alimentaires'explique en grande partie par l'étude déjà effectuée par O.Sautory sur l'influence duchoix des fonctions de calage sur les pondérations au niveau individuel. Le choix s'est30 INSEE Méthodes n° 56-57-58

donc porté sur l'enquête consommation alimentaire de 1989 en dépit de la distanceavec le recensement de 1982. En effet, cet écart accroit la proportion de logementsneufs dans l'échantillon et diminue donc d'une part la taille de l'échantillon utilisablepour l'étude, il fragilise d'autre part l'eStimation d'un modèle de réponse puisque lesvariables utilisées sont relatives aux ménages occupant le logement au moment durecensement. Les resultats de cette étude ne sont donc qu'indicatifs de la divergencedans le cas de figure le plus défavorable du point de vue de la distance au recensement.Les variables retenues ici pour le calage sont les variables qui ont été utilisées pour lecalage effectif de cette enquête, à l'exception, pour des raisons de simplicité de lavariable tranche d'âge x sexe relatives aux individus. En effet, le calage de cetteenquête comporte un calage du niveau individu et un calage du niveau ménage, cesdeux calages pouvant être effectués simultanément en substituant la variable ménage :nombre d'individus par âge x sexe à la variable du niveau individu. Cette variablen'étant pas accessible dans la base de sondage, elle a été éliminée dans l'étude.Le modèle de réponse pouvait, quant à lui, inclure a priori toute variable disponiblepour l'ensemble des individus recensés (RP82 exhaustif). Les limitations des variablesdisponibles dans l'échantillon maître 1982, ainsi que des considérations de robustesse etdes tests de significativité du modèle de réponse ont finalement conduit à ne retenir quedeux variables supplémentaires par rapport au calage : la nationalité française et larégion de référence.Ainsi les variables prises en compte dans l'étude sont :2-1 variables retenues pour le calage (qualitatives):-nombre de personnes du ménage :1 personne2 personnes3 personnes4 personnes5 personnes6 personnes et plus-CS du chef de ménage :1- agriculteurs, exploitants2- artisans, commerçants, chefs d'entreprise3- cadres et prof intellectuelles4- professions intermédiaires5-employés6-ouvriers7- inactifs et non déclarésCorrections pour la non réponse 31

-âge du chef de ménage :16 à 24 ans25 à 34 ans35 à 44 ans45 à 54 ans55 à 64 ans65 à 74 ans75 et plus- catégorie de commune :commune ruralemoins de 10 000 h10 000 à 50 000 h50 000 à 200 000 hplus de 200 000 h2-2 variables retenues pour le modèle de non-réponse (qualitatives) :- variables de calage- region référence- nationalité:1 français2 étranger2-3 choix des formes fonctionnelles F, F* et G :Dans CALMAR trois fonctions F sont utilisées sans créer de problèmes ; il s'agit desfonctions exponentielle (raking ratio) , logit et linéaire tronquée. Seules ces troisfonctions seront donc utilisées dans l'étude empirique.En effet, la résolution pour la fonction F linéaire peut déboucher sur des poids négatifsqui ne reçoivent aucune interprétation. Par ailleurs rappelions qu'en cas d'utilisationd'une pondération comportant des poids négatifs, ceux ci seraient éliminés par la suitelors de l'utilisation de procédures SAS telles que freq means etc...Les fonctions F chi-deux et Fiellinger, quant à elles, posent un problème de domainede définition : ces fonctions ne sont pas définies sur tout 9I et donc pas pour certainesvaleurs de x,b32 INSEE Méthodes n° 56-57-58

Pour le modèle de non réponse, on peut estimer facilement les modèles avec laprocédure SAS proc logistic qui autorise trois fonctions G, fonction de répartition deslois logistique, normale et Gompertz. Les deux premières sont trop proches pourinduire des différences significatives. On utilisera donc seulement les fonctions derépartition des lois logistiques et Gompertz.2-4 Résultats des deux méthodes de redressement sur l'enquêteconsommation alimentaire :2-4-1 comparaison au niveau individuel :On a cherché à évaluer la répercussion du choix de la méthode de redressement auniveau individuel, c'est-à-dire la répercussion du choix des méthodes sur la valeur despoids. Pour cela on calcule au niveau de chaque ménage le rapport entre les poidsobtenus par deux méthodes alternatives. La sensibilité de la pondération à unemodification du choix de F ou F* ou G et/ou au choix entre les méthodes 1 et 2 estétudiée à partir des écarts types de la distribution des rapports.En effet, soit (w ) et ( w b ) les poids obtenus par deux procédures deIESredressement différentes a et b. La moyenne des rapports de poids est égale à un.L'écart type de la distribution du rapport des poids b mesure l'écart relatif auI ESniveau individuel des résultats obtenus par les deux méthodes. En effet1W a —w b \ 2( \a ---bivb. Cette mesure est indépendante des poids initiaux d.qui sont éliminés dans le rapport. Elle doit être comparée à l'ampleur de la correctiondes méthodes a ou b. Celle ci peut être mesurée par le coefficient de variation de ladistribution des poids (w," )obtenus par la méthode a ou par le coefficient devariation de la distribution des poids (w, b ) obtenus par la méthode b.IESAinsi, si l'on cherche à mesurer l'influence du choix de F dans la méthode en une étape surles résultats du redressement au niveau individuel, on utilisera( ',\bWGf F°F b (xb b ),,Corrections pour la non réponse 33

Les comç..elient sPécore en'er-..varebre asaranquéte n-5;511E5O. pr;agit en cl. de re:procéciur I quiefiectierrunt.rnénago.. On souhaiteet les résultats admettant une .que ri. Li rsi puamené à envisager dans chaque groupe delesutilisables à l'heure actuelle.Dans le second cas en revanche, l'anglediscuter des divergences entre les deux groupesthéorique. Il s'agit mesurer les divergences en fonction de o. consiste àpoint de vueI- mécanisme de réponse vrai variables influant sur le fées de reponare etformefonctionnelle du modèle de réponse2- forme des fonctions de calage F3- forme des fonctions de calage F°4- forme fonctionnelle G utilisée pour l'estimation de la non réponse5- variables retenues dans l'estimation du modèle de réponse {oubli depar rapport au mécanisme de réponse vrai).6- méthode d'estimation retenue pour le modèle de réponse {maximum devraisemblance, calage, moments)Ainsi, les comparaisons effectuées sur la base de l'enquête alimentaire 1989permettent seulement de replacer les conséquences sur les pondérations finales deschoix qui ont été faits au niveau du redressement entre deux groupes de méthodesd'une part et de leurs variantes d'autres part par rapport aux choix qui auraient pu34 INSEE Méthodes n° 56-57-58

être faits. Elles n'ont pas de portée suffisamment générale pour infirmer la théoriegénérale.les résultats sont les suivants :Dans cet exemple, les corrections pour non réponse sont deux fois moinsimportantes (au sens d'une mesure par le coefficient de variation) que les correctionspour erreur d'échantillonnage. Les coefficients sont en effet respectivement del'ordre de 0.2 et 0.4 quelque soient les choix opérés aux différents niveaux. On ne sesitue donc pas dans la configuration attendue en fonction de la théorie asymptotique.Les résultats que l'on obtient dans les comparaisons découlent directement de cet étatde fait et peuvent s'interpreter en relation avec la figure p17 vue en 1-7Ainsi, par exemple, les effets du choix de F* n'ont pas de raison a priori d'être trèspetits devant les effets du choix de G. La distance entre les droites Dl et D2 est eneffet deux fois "plus petite"que la distance entre les droites D2 et D3. La différenceentre deux pondérations alternatives dépend alors essentiellement de l'ampleur de ladifférence entre les formes fonctionnelles utilisées.a/ choix de G :La différence entre les pondérations obtenues avec la fonction derépartition d'une loi logistique et avec la fonction de répartition d'une loi de Gompertzest de l'ordre de 0.07. Elle n'est pas tout à fait négligeable par rapport à l'ampleur desCorrections pour la non réponse 35

corrections pour non réponse qui sont de 0.2 et les corrections globales qui sont de0.4.b/ choix des variables explicatives :L'influence de la modification dans le choix des variables explicatives du modèle deréponse est de l'ordre de 0.07 également.c/ choix de F* :Les deux fonctions logit et exponentielles (raking ratio) conduisent à des poids assezproches dans la mesure où les bornes choisies sont inactives (1). La différence mesuréeen écart type du rapport des poids ne dépasse pas 0.06. En revanche, les poids finauxdiffèrent notablement plus lorsqu'on oppose deux versions de la méthode 2 avec uncalage réalisé à l'aide de l'une des deux fonctions logit ou exponentielles d'une part, etlinéaire tronquée d'autre part. L'écart est de 0.13 . Il n'est pas dû aux bornes qui sontinactives elles aussi dans ce cas. La sensibilité des résultats au choix entre linéairetronquée d'une part et exponentielle ou logit d'autre part est en rapport direct entre lesdifférences entre ces trois formes fonctionnelles sur les plages de valeurs des quantitésxb*. (sur lesquelles varient xb*). Cette différence n'est pas neutre lorsqu'on la compareà l'ordre de grandeur de la correction globale qui est de 0.4(I) on sait en effet que la fonction exponentielle est obtenue en faisant U---#0 et L-->oa dans la fonctionlogit.d/ choix de F :Les mêmes remarques s'appliquent pour la fonction F.e/ choix de méthodes :Les différences entre les pondérations obtenues en utilisant une version de la méthode1 et une version de la méthode 2 sont en rapport direct avec les choix de fonctionséffectués dans les deux versions comparées.L'égalité des deux méthodes dans le cas exponentiel repose en effet sur l'égalité (R)G(a)+F*(b)=F(a+b) lorsque G=F*=F=exp. Dans ce cas en effet, les deux "trajets"empruntés par les deux méthodes sont les mêmes. Tout se passe comme si les résultatstraduisaient cette "distance plus ou moins grande des choix de (G,F*,F) à la relation(R).Ainsi,un choix (logit, ratio, ratio) donne une différence de 0.02.un choix (logit, ratio, logit calage) donne une différence de 0.05.un choix (logit, logit calage, ratio) donne une différence de 0.033un choix (logit, logit calage, logit calage) donne une différence de 0.065un choix (logit, linéaire tronquée , ratio) donne une différence de 0.166un choix (logit, linéaire tronquée , logit calage) donne une différence de 0.2un choix (logit, linéaire tronquée, linéaire tronquée) donne une différence de0.14.36 INSEE Méthodes n° 56-57-58

un choix (logit, ratio, linéaire tronquée) donne une différence de 0.136un choix (logit, logit calage, linéaire tronquée) donne une différence de 0.129Dans cet exemple, le choix de méthodes n'est pas neutre dans tous les cas si on lecompare à l'ordre de grandeur des corrections appliquées pour l'une quelconque desméthodes : les différences ne sont pas négligeables lorsque la fonction linéaireintervient dans l'un au moins des termes de la comparaison. Elles sont néamoinsexactement comparables aux différences que l'on trouve lorsque l'on compare deuxversions de la méthode n°2.Tout se passe comme si le choix de méthode n'avait pas plus d'influence sur lespondérations finales que le choix des fonctions dans l'application de la méthode valide.Tous ces résultats sont évidemment relatifs à ce cas particulier et découlent du fait queles corrections pour non réponse sont deux fois moins importantes que les correctionspour erreur d'échantillonnage.2-4-2 comparaison au niveau agrégé :Nous nous sommes ensuite intéressés à l'influence des choix de méthodes effectués auniveau de redressement sur l'estimation et donc sur les résultats de l'enquêteproprement dits. Pour les résultats agrégés, nous avons trouvé que l'influence des choixopérés au niveau du redressement étaient négligeables : en effet, l'influence de laprocédure de redressement ne dépasse pas 0.1 point sur les pourcentages calculés pourla répartition des variables qualitatives et moins de 0.4% de différence sur lesmoyennes calculées pour les variables quantitatives. Ainsi, on obtient que l'influence duchoix de la méthode usuelle plutôt que de la méthode en deux étapes est tout aussinégligeable que l'influence du choix de la fonction de calage. Les calculs à un niveaumoins agrégé restent à poursuivre et pourraient conduire à une conclusion différente.2-4-3 conclusion :Toutes ces conclusions restent fragiles et attachées au cas particulier de l'enquêteconsommation alimentaire pour laquelle la plupart des facteurs explicatifs de la nonréponse sont pris en compte dans le calage ( ie on n'a pas mis en évidence de facteurexplicatif supplémentaire important de non réponse par rapport au facteurs introduitsnaturellement dans le calage).Des simulations en cours viendront compléter ces résultats de façon à leur donner uneportée plus générale et à les infirmer le cas échéant.Corrections pour la non réponse 37

ANNEXE 1:information disponible pour l'ensemble des ménages tirés:a/ logement enquêté en 1982, BI :variables de l'exploitation exhaustive du RP82, information relative à lasituation de 1982 du ménage qui occupait ce logement en 1982identifiant:- région- département- commune- arrondissement- canton- vague d'enquêtenuméro de fiche adresssetype d'habitat:- catégorie de commune rural/urbain et nombred'habitants état matrilmonial du chef de ménage- nombre de logements par catégories en 1982:principales, secondaires, vacants- appartenance à une ville nouvellecaractéristiques du ménage *:- nombre de personnes par tranche d'âge- nombre de personnes actives du ménage- nationalité du chef de ménage (français/étranger)- catégorie socio-professionnelle du chef de ménage- statut du chef de ménage- âge détaillé du chef de ménage- sexe du chef de ménageréalisation de l'enquête:- service enquêteur DR- nombre d'enquêtes réalisées dans la commune à chaque- vagueb/ logement construit depuis 1982, BI- région- commune- département- vague- date d'achèvement du logement- maître d'oeuvre- catégorie de logement38 INSEE Méthodes n' 56-57-58

ANNEXE 2 : DENIONSTRATION DE L'UNICITE DE LA SOLUTION DESEQUATIONS DE CALAGE :L'égalité des deux méthodes de redressement repose sur l'unicité de la solution deséquations x,d, exp(x,a) = X que nous allons démontrer en reprenant!Erl'interprétation géométrique vue en 1-7.Il est en effet équivalent de résoudre > x,d, exp(x,a) = X en a ou de rechercher!Grl'intersection- de la courbe paramétrée définie dans par w = d, exp(x,a)et - du sous-espace affine de dimension m-k défini dans 91"' par ( w = XSupposons que ces équations admettent au moins deux solutions c'est à dire qu'il existeau moins deux points d'intersection dans 91"'. Notons Al et A2 les deux valeurs duparamètre a associé. On a lx, exp(x, Al) = X = x, exp(x, A2)Soit h la fonction définie de [0,1] dans 91 parh(l) exp(x,A1-1-t(A2 — AI)) (Al— A2)h est continue sur [0,1] et dérivable sur ]0,1[ Or h(0)=-1(1). En appliquant le théorèmede Rolle on obtient que h s'annule en un point de l'intervalle ouvert 10,1[ Or, la dérivéede h ne peut s'annuler. En effet, exprimons la dérivée de h en un point t quelconque :h' (t) = x,(Al- A2)x, expk,Al+t(Al- A2)] (Al- A2) --- (A 1 - A2)r exp[x,AL + t(Al - A2)],ErPuisque A1=A2, il existe une composante I sur laquelle Al et A2 différent c'est à direAl, A2 1 . h'(t) est donc toujours strictement positive puisque les variables auxiliairessont supposées non nulles et donc en particulier la 'eine variable est non nulle.Corrections pour la non réponse 39

ANNEXE 3 : CAS OU LE CALAGE REPOSE SUR UNE SEULE VARIABLEQUALITATIVE : LES DEUX METHODES COINCIDENT ET REALISENTUNE POSTSTRATIFICATIONSupposons que l'on effectue les redressements sur la base d'une variable qualitative x*à k modalités. Les variables du redressement sont les k variables indicatrices associéesaux k modalités. Les paramétrages en b, F(x,b) sont tous équivalents puisu'ilsdéfinissent exactement un paramètre pour chaque modalité. La fonction F(x,b) vauten effet F(b,) lorsque x* prend la 1 ème modalité. On utilisera donc le paramétrage pargroupe équivalent.le redressement en deux étapes devientlère étape : correction pour non réponse :la paramétrisation p, = G(x,c) correspond d'après la remarque qui précède à unmodèle de réponse homogène par groupe, c'est à dire : p, = p, lorsque x* prend lalème modalité. Soit r, (resp s, ,U,), l'ensemble des répondants (resp des individus tirés,de la population totale) pour lesquels x* prend la 1 ème modalité. Les probabilités deréponse vont être estimées par les taux de réponse observés dans chaque groupe s,. Onobtient donc /3, = 171' —n,2ème étape : correction pour erreur d'échantillonnage : calageLes équations de calage vont donner une correction multiplicative constante a, danschaque groupe r, d'après la remarque sur l'équivalence des paramétrages. Elless'écrivent :€rn,= N, où N, représente l'effectif de U,Les nouveaux poids à l'issue du redressement par la méthode en deux étapes sont doncd N.cx. ' dans le groupe r, Il est facile de voir qu'il ne dépendent pas de: din ,rEril'étape de correction pour non réponse. En particulier, ils ne dépendent pas de laméthode d'estimation des probabilités p,.40 INSEE Méthodes n° 56-57-58

Le redressement en une étape fait intervenir quant à lui une correction multiplicativedes poids y, déterminée par les équationsEd,Y = N1E/Les poids après redressement s'écrivent donc d,* = d,y , = d 'd, dans le groupe ri etles deux méthodes coincident.L'estimateur associé pour une variable y dont on veut estimer le total s'écrit := Id, *y, =Lorsque l'échantillon a été obtenu par un sondage aléatoire simple sans remise, onobtient := N il,/ c'est à dire l'estimateur poststratifié.Corrections pour la non réponse 41

BIBLIOGRAPHIE :non-réponse :J.C.DEVILLE, F.DUPONT : non-réponse : principes et méthodes. Journées deméthodologie décembre 1993C.E.SARNDAL,B.SWENSSON,J.WRETMAN : Model assisted surveysampling(Springer verlag,1991)J.M.GROSBRAS : Méthodes statistiques des sondages, (économica,1987)OH et SCHEUREN 1983 : weighting adjustment for unit non response. Incompletedata in sample surveys tome 2, 1983 academic pressestimation par calage :J.C.DEVILLE,C.E.SARNDAL : Calibration estimators in survey sampling (Journalof the American Statistical Association vo147 n°418,juin 1992)J.C.DEVILLE, C.E.SARNDAL, O.SAUTORY : Generalized Raking Procedures insurvey sampling (Journal of the American Statistical Association, septembre 1993,volume 88 n°423)O.SAUTORY : Redressement d'échantillons d'enquêtes auprès des ménages parcalage sur marges (Document de travail de la Direction des StatistiquesDémographiques et Sociales n°F9103).O.SAUTORY : La macro SAS CALMAR: redressement d'un échantillon par calagesur marges. (Document de travail de la Direction des Statistiques Démographiques etSociales n°F9108). Le document relatif à la nouvelle version de CALMAR est en coursde rédaction.F.DUPONT : redressements alternatifs en présence de plusieurs niveaux d'informationauxiliaire note n°608/f010 du 10 novembre 1993.mise en oeuvre des modèle économétriques sur variables qualitatives sous SAS :O.VERGER, M.IVIARPSAT L'économétrie et l'étude descomportements:présentation et mise en oeuvre de modèles de regression qualitatifs(Direction des Statistiques Démographiques et Sociales n°F9110, ouvrage collectif)42 INSEE Méthodes n° 56-57-58

L'économétriedes modèles de durée avec SAS.Présentation et mise en oeuvreC. Cases IS. Lollivier 21 IntroductionL'analyse économétrique des données de durée est une discipline assez récente.Les premiers manuels méthodologiques appliqués aux données économiques datent,en effet, du début des années 80, quand un développement suffisant aussibien de la théorie des probabilités (processus), de l'analyse statistique et desmoyens de calcul informatiques ont été atteints.L'analyse des durées a d'abord été celle des durées de vie, et a été menéepar les démographes et les actuaires. Elle est également très utile en biométrieet en statistique médicale, où elle sert à modéliser et à comparer des surviesde malades suivant différents traitements, des durées de rémission... Un autredomaine d'application est traditionnellement celui des contrôle de fiabilité dematériels (taux de pannes de machines ou de systèmes). En économie, lesdomaines d'application privilégiés des modèles de durées sont les durées dechômage ou d'emploi des individus, mais ils peuvent être appliqués à des sujetstrès variés (durée de vie des entreprises, durée de remboursement d'un emprunttenant compte des remboursements anticipés...).Le présent document de travail vise à donner les éléments nécessaires àla modélisation de durées à l'aide du logiciel SAS. Il comporte d'abord uneprésentation synthétique des principaux outils probabilistes nécessaires, et desgrandes catégories de modèles économétriques utilisés, ainsi que des élémentssur les méthodes d'estimation de ces modèles. II détaille ensuite l'utilisation desdiverses procédures SAS qui peuvent être utilisées pour réaliser ces estimations,en les illustrant d'exemples.I CREST2CRESTDonnées de survie 43

2 Caractériser la loi des variables de duréeA priori, on pourrait traiter une variable de durée comme n'importe quelle variablealéatoire quantitative continue, à ceci près qu'elle prend nécessairementune valeur réelle positive. Ce n'est pas une caractéristique très discriminante,puisqu'on la retrouve sur d'autres thèmes de l'analyse économique, comme parexemple celle des salaires. La référence habituelle à la loi normale nécessite alorsune transformation sur les données, en en prenant par exemple le logarithme.Ainsi une des lois de base en économétrie des salaires est la loi log-normale, quirevient à faire une hypothèse de normalité sur le log de la variable étudiée. Cettedistribution est, on le verra, beaucoup moins centrale en économétrie des durées.La particularité des données de durées est qu'elles peuvent s'interpréterfacilement comme résultant d'un processus stochastique sous-jacent. Ce processusrend compte des dates de changements d'état d'un individu (vie et mort,emploi et chômage, être parent d'un enfant ou de deux enfants...). La durée d'unétat est alors simplement l'écart entre date de début et date de fin d'un état.Les caractéristiques de ce processus conduisent alors à définir de grandes classesde lois de probabilité pour les durées. De plus, certains outils probabilistes particuliers,comme la fonction de survie ou la fonction de hasard, prendront uneplace plus déterminante dans l'analyse que l'habituelle densité de probabilité,car ils ont l'avantage de s'interpréter très simplement.Présentons d'abord les trois fonctions les plus utilisées pour caractériserla loi d'une durée. Pour cela, on notera T la variable de durée,f(t) et F(t) sa densité de probabilité et sa fonction de répartition.On appelle fonction de survie S(t) la probabilité que la durée soit plusgrande que t, soit00S(t) f (u) du = 1— F(t).On appelle fonction de hasard h(t) la probabilité que la durée soit compriseentre t et t dt, sachant qu'elle est plus grande que t, soith(t) = s(t2). f(h(t) représente le taux instantané de sortie de l'état que l'on observe. Si, parexemple, on mesure des durées de chômage, h(t) représentera le taux de sortiede chômage à la date t, c'est -à-dire la probabilité de sortir du chômage dansun très petit intervalle de temps après t, sachant que l'on était chômeur en t. Si44 INSEE Méthodes n° 56-57-58

l'on s'intéresse à la durée de vie des individus, h(t) sera un risque de mortalitéà un âge donné.Enfin, la durée moyenne restante est l'espérance de la durée qui restesachant que l'on a déjà atteint t :r(t) = E(T — t IT > t).C'est par exemple l'espérance de vie à un âge donné, dans le cas du dernierexemple.Chacune de ces trois fonctions caractérise la loi d'une variable de durée, aumême titre que la densité de probabilité. La plus utilisée est la fonction dehasard. C'est en général cette fonction que chercheront à estimer les modèleséconométriques les plus simples. Elle permet de caractériser la probabilitéimmédiate de changer d'état en t.Il existe des relations simples entre densité survie, hasard et durée moyennerestante. Ainsi,f(t)h(t) = .5-7(t-i. = --di log S(t)d'oùtS(t) = exp(— f h(u)du).oSelon les cas étudiés, les fonctions de hasard, ou taux de sortie instantanés,peuvent avoir des formes très différentes. Si l'on considère la durée de vie deshommes en France, le hasard représente simplement le taux de mortalité. Saforme est en U, avec deux petites "bosses", l'une vers 18-22 ans, l'autre vers40 ans. La partie décroissante aux tous premiers âges de la vie s'explique parla fin de la période de mortalité néo-natale et infantile, le premier pic par lesaccidents de la circulation, le second par les maladies cardio-vasculaires. Enfin,le taux de mortalité recommence à augmenter régulièrement aux âges élevés.La représentation d'un tel type de fonction par une loi paramétrée simple n'est,a priori, pas évidente...Pour d'autres phénomènes étudiés, comme la durée de chômage, cettemodélisation peut être plus simple. Ainsi les fonctions de hasard observéesdans ce cas sont parfois supposées croissantes, puis décroissantes (en raison,par exemple, d'une intensité variable de recherche d'emploi), ou bien simplementdécroissantes (en raison, par exemple, d'une réticence des employeurs àembaucher des chômeurs de longue durée).Données de survie 45

3 Les lois de probabilité de baseLa loi de référence pour les modèles de durée est la loi exponentielle. Ellea une propriété importante : elle est la seule à avoir un hasard constant. Lavaleur de ce hasard est le seul paramètre de la loi. Cela signifie qu'à n'importequelle date, la probabilité de changer d'état est la même. C'est la raison pourlaquelle on dit du modèle exponentiel qu'il est "sans mémoire" 1. La valeur duhasard est le seul paramètre de la loi. Ses caractéristiques sont les suivantes :h(t) =S(t) = exp(--0t)f(t) = O exp(-0t)r(t) = 1/0.La loi de Weibull généralise la loi exponentielle, puisque la durée Y estsupposée telle que Y" suit une loi exponentielle de paramètre O. C'est donc uneloi à deux paramètres a, G telle que :h(t) = aOtce-1S(t) = exp(-0ta)f(t) = aOte —lexp(-0ta).Le hasard de'la loi de Weibull est monotone, croissant si a > 1 et décroissantsi a < 1. De plus, la loi de Weibull englobe la loi exponentielle pour a = 1.La loi log-normale et la loi log-logistique permettent de représenter deshasards avec un mode (croissants, puis décroissants). La durée T sera alors tellelogqueT—msuit respectivement une loi normale N(0, 1) ou une loi logistique. Lehasard de la loi log-normale a une expression analytique inconnue, qui dépenddu ratio de Mils :h(t) = to.(i_ 4)(1.orn a )),où qf et (I) sont la densité et la fonction de répartition (calculable numériquementseulement) de la loi normale centrée réduite.Pour éviter de manipuler une forme aussi complexe, on préfère le plus souventutiliser la loi log-logistique, qui est très proche de la loi log-normale, et dont lehasard s'écrit :clILe processus sous-jacent est markovien.46 INSEE Méthodes n° 56-57-58

Ot( 11°)-1h(t) = cr(Bel a + 1)'où 0 = exp(—m/o-). Pour o- < 1, le hasard présente un mode ; pour « > 1, ilest monotone décroissant, avec ou sans asymptote en O.On peut construire d'autres familles de lois. Pour plus de détails, se référerà la bibliographie en fin de volume.Données de survie 47

4 Les grands principes de l'économétrie des durées4.1 Modèle structurel, modèle réduitPour estimer un modèle de durée, la méthode la plus simple est d'observer desdurées et de procéder directement à l'estimation des paramètres de la loi deprobabilité de la variable aléatoire, par exemple sa fonction de hasard. Maiscette fonction s'interprète le plus souvent comme résultant d'un comportementparticulier. Ce sont, en fait, les caractéristiques de ce comportement qui servent,en dernier ressort, à comprendre la distribution des durées étudiées. Onpeut donc aussi chercher à modéliser directement ces comportements. Dans lepremier cas, on dit que l'on estime la forme réduite du modèle. Dans le second,on en analyse la forme structurelle. Ce sont des estimations de formes réduitesdont traitera ce fascicule.Pour illuster la différence entre un modèle structurel et un modèle réduit,prenons l'exemple classique de l'analyse des durées de chômage à l'aide d'unmodèle de recherche d'emploi. On suppose qu'un individu au chômage reçoitdes offres d'emploi à chaque moment avec une probabilité constante A. Cesoffres sont caractérisées par leur salaire w qui est tiré aléatoirement dans unedistribution de.fonction de répartition F, connue à l'avance par le chômeur.A chaque date, l'individu reçoit une indemnité b s'il est au chômage. Il peutrefuser ou accepter une offre, mais ne revient jamais sur une décision pesée. Onsuppose que sa stratégie consiste à maximiser son espérance de revenu sur unedurée de vie infinie. Une fois accepté, l'emploi est définitif et le salaire ne changeplus. On montre alors que la stratégie optimale du chômeur est d'accepter uneoffre seulement si son salaire dépasse un montant minimum appelé salaire deréserve, qui est une fonction assez complexe de tous les paramètres A, b, F et deson taux d'actualisation2. La fonction de hasard s'écrit alors h (t) = A(1— F(e)).Dans ce cas simple, elle ne dépend pas de t : le modèle est dit stationnaire. Si>i ou b varie avec t, ou si la durée de vie est finie, le salaire de réserve et lehasard dépendront de t. Un modèle structurel estimera séparément A, b, F. Unmodèle réduit essaiera d'estimer globalement la fonction de hasard. La formedu hasard et son sens de variation avec t est une des questions fondamentalesen économétrie des durées.2e = 6 + f7 (tu — e)dF(10)48 INSEE Méthodes n° 56-57-58

4.2 Modèle paramétrique, non paramétrique,semi-pararnétriqueDans l'exemple précédent, plusieurs stratégies sont possibles pour l'estimationdirecte de la fonction de hasard. On peut supposer que la variable de duréesuit une loi de probabilité donnée, par exemple une loi exponentielle, une loi deWeibull...On peut alors écrire la vraisemblance de l'échantillon observé, et estimerses paramètres par maximisation. Le modèle est alors dit paramétrique.On peut aussi introduire dans le modèle des variables exogènes qui déterminentla valeur de certains paramètres (voir ci-dessous). Des exemples d'écriture devraisemblance seront traités dans la section 6.Certaines méthodes permettent de s'affranchir d'une spécification particulièrede la loi des durées. En effet, celles-ci peuvent être trop contraignantes (difficultéde modéliser un hasard à plusieurs modes, par exemple), ou trop peu robustes(les résultats peuvent être très différents selon la spécification choisie). Selonque l'on laisse libre l'ensemble ou une partie de la spécification de la loi de ladurée, on parlera de modèles serni-paramétriques ou non paramétriques.Ils sont cependant parfois plus difficiles à programmer et nécessitent souventplus de données. Cependant, certains modèles courants peuvent être traitéstrès simplement avec des procédures SAS. Il s'agit en particulier de l'estimateurnon paramétrique le plus courant, dit de Kaplan-Meier (FROC LIFETEST),et du modèle semi-paramétrique de Cox (FROC PHREG), dont les grandescaractéristiques' seront décrites plus loin.4.3 Introduction de variables exogènesL'estimation des fonctions de hasard doit a priori s'effectuer sur des populationshomogènes. Si la population regroupe des catégories dont les lois de durées sontdifférentes, le risque est en effet de conclure faussement à une décroissance dela fonction de hasard. Le mécanisme qui mène à ce biais est connu sous le nomde "mover-stayer" : supposons un melange à part égales de deux populations àhasards (ou risques) constants, mais différents. Au fil du temps, les individusde la population de risque le plus élevé sortant plus vite de l'état observé, lapopulation des survivants comportera de plus en plus d'individus à risque faible,et les sorties seront ainsi de moins en moins fréquentes.Pour éviter ce risque de mauvaise interprétation, il est possible de partagerl'échantillon observé en sous-échantillons (ou strates) les plus homogènes possibles.Par exemple, on peut envisager d'étudier séparément les durées de chômageselon le sexe, le diplôme et la classe d'âge. Procéder ainsi suppose qu'il restedans chaque sous-échantillon suffisamment d'individus pour que l'estimateurconserve de bonnes propriétés asymptotiques. On peut aussi spécifier une formeDonnées de survie 49

paramétrique particulière dans laquelle les paramètres s'expriment en fonctionde variables exogènes.Il existe plusieurs catégories de familles paramétriques qui permettent deprocéder ainsi. Les plus courantes sont les familles à hasard proportionnel etles familles à hasard accéléré.Dans les familles à hasard proportionnel, la fonction de hasard a pourforme générale :h(t) ho(t)0(X , 8).ho(t) est appelé "hasard de base", et 0(X,/3) est une fonction positivedes exogènes X, étant un vecteur de paramètres. On choisit en général= exp(X/3). Le nom de cette famille de lois tient à ce que des valeursdifférentes des variables exogènes aboutissent à des valeurs proportionnelles duhasard. En particulier, si le hasard de base présente un mode, ce sera le mêmepour tous les individus, ce qui peut être très restrictif. Le hasard de base peutêtre estimé par la méthode du maximum de vraisemblance en spécifiant uneforme paramétrique particulière, ou bien par une méthode non paramétrique(on parle alors d'une estimation semi-paramétrique pour h, voir plus loin ledétail d'une méthode : modèle de Cox).Dans les familles à hasard accéléré, la fonction de hasard a pour formegénérale :h(t , X , ,8) = ho [t exp(X ,8)] exp(X,a)Les variables exogènes ont alors un effet de paramètre d'échelle sur les durées :tout se passe comme si la durée T d'un individu de la "catégorie" X s'écrivaitTo exp(—X.P.), où To serait la durée de vie de la catégorie de référence. Toutse passe donc comme si le temps avançait plus ou moins rapidement pourles différents types d'individus. Cette écriture permet d'écrire simplement lesmodèles à durée de vie accélérée sous la forme :log T = —X + log ToCette écriture peut faire penser à un modèle de régression linéaire, où log Tojouerait le rôle de la perturbation. Le problème principal est que dans le casgénéral, cette "perturbation" n'est pas d'espérance nulle, et que les moindrescarrés ordinaires ne peuvent être appliqués pour estimer /3 que dans des castrès particuliers (pas de données censurées). Dans la plupart des cas, on doitspécifier la loi de log To et estimer par le maximum de vraisemblance. C'est laméthode utilisée par la procédure LIFEREG de SAS (voir plus loin). Il existedes méthodes semi-paramétriques qui évitent de spécifier une loi pour log To ,mais elles ne sont pas disponibles sous formes de procédures SAS.50 EVSEE Méthodes n° 56-57-58

5 Problèmes particuliers5.1 Les données censuréesUne des particularités les plus fréquentes des données de durée est qu'elles sontrarement parfaitement observées. La période d'observation est en effet souventtrop courte pour mesurer les durées les plus longues. On parle alorsd'observations censurées. Le type de censure le plus fréquent est ainsi la"censure à droite". Supposons que l'on observe toutes les personnes entrantau chômage entre deux dates T1 et T2. Pour les personnes ayant retrouvé unemploi en T2, la durée sera parfaitement observée. Pour les personnes toujoursau chômage en T2, on sait seulement que la durée de chômage est supérieure àce que l'on a observé (on parle alors d'une ancienneté de chômage). Si l'on netient pas compte de ce phénomène, la loi de durée que l'on estimera sera biaiséeet conduira à des espérances de durée plus courtes que la réalité.Il existe différents types de censure qui ne seront pas tous détaillés ici. Ilest en général assez simple de tenir compte de la censure si elle intervient demanière indépendante du mécanisme de sortie, c'est-à-dire si la loi des duréescensurées est bien la même que celle des durées non censurées. Les procéduresSAS présentées par la suite traitent toujours ces cas simples.5.2 Les fichiers de stockUn cas, lui aussi fréquent, mais non pris en compte dans les procédures SAS estcelui des échantillons construits à partir de fichiers de stock. Dans le cas desdurées de chômage, par exemple, il est fréquent d'observer les durées d'individusse trouvant au chômage à la date de début de l'enquête (par exemple en tirantl'échantillon dans un fichier ANPE). Cette méthode de tirage de l'échantillon introduitun biais sur les durées observées, appelé biais de sélection endogène(stock sampling). Pour bien s'en persuader, il suffit de raisonner sur l'ensembledes personnes entrées au chômage à une même date —e (on posera que la date detirage de l'échantillon vaut 0). Parmi cette "cohorte", seuls figureront dans lesfichiers de chômeurs en 0 les individus dont la durée de chômage est plus grandeque e. Les autres auront quitté les fichiers auparavant. Pour chaque cohorted'entrants, la probabilité de figurer dans l'échantillon sera nulle pour les duréesles plus courtes. Ce mode de sélection particulier conduit donc à surestimer lesdurées moyennes si l'on ne corrige pas de ce biais. Dans la pratique, cettesurestimation peut être très importante, et conduire à multiplier par2 ou 3 les espérances de durée. Il existe des méthodes de correction, qui fontDonnées de survie 51

souvent des hypothèses fortes sur la stabilité des lois de durée pour l'ensembledes cohortes d'entrants. La plus simple à mettre en oeuvre est l'estimation parle maximum de vraisemblance conditionnel. Elle n'est cependant pas inclusedans les procédures SAS et nécessite d'utiliser ou de programmer complètementun algorithme de maximisation. La PROC NLIN peut être utilisée dans cecas, après avoir calculé formellement la vraisemblance et le score (vecteur desdérivées par rapport aux paramètres).5.3 L'hétérogénéité non observéeOn a vu précédemment qu'il était nécessaire de procéder à des estimationssur des populations homogènes ou bien d'inclure des variables exogènes dansla spécification des lois de durées. Le problème de l'hétérogénéité reste entierlorsqu'elle résulte de variables omises ou d'un caractère non observable desindividus. Dans ce cas, on peut conclure faussement à. une décroissance duhasard avec t, et même obtenir des estimateurs biaisés pour les coefficients desvariables exogènes incluses dans le modèle. Pour remédier à ce problème, on introduitgénéralement un facteur d'hétérogénéité multiplicatif y dans la fonctionde hasard, pour lequel on spécifie une loi particulière de probabilité, discrète oucontinue. La vraisemblance du modèle peut alors être écrite en intégrant sur laloi de y, dont on estime les paramètres (et éventuellement le support, s'il s'agitd'une loi discrète) comme les autres éléments du modèle. Ce type de modèle,qui devient assez courant en pratique, n'est pas non plus disponible en standarddans SAS.5.4 Les exogènes variant dans le tempsL'introduction d'exogènes dans le modèle n'a été envisagée que dans le cas oùelles mesurent des caractéristiques constantes au cours de la durée d'observation.Il est possible d'étendre le modèle au cas d'une variable x(t). Pour cela, il fautcréer autant de variables que de sous-périodes pendant lesquelles x est constante,c'est-à-dire conditionner le modèle par l'ensemble des valeurs de la variable. Celane pose pas de problème dans le principe, mais le modèle peut devenir difficile àestimer si l'on introduit plusieurs variables de ce type, le nombre de coefficientsà estimer pouvant alors devenir très important.52 INSEE Méthodes n° 56-57-58

6 Estimation et tests dans les modèlesparamétriquesL'une des difficultés d'estimation des modèles de durées est l'impossibilité d'appliquerles modèles de régression habituels, sauf dans des cas très particuliers. Ona vu précédemment que l'on pouvait penser à écrire un modèle de la forme :log T = X3 + U,où U est une perturbation. Mais les moindres carrés ordinaires ne sontgénéralement pas convergents, sauf dans le cas où les données observées ne sontpas censurées. La méthode utilisée est donc presque toujours le maximum devraisemblance.6.1 Ecriture de la vraisemblance dans les modèles de duréeSupposons que, dans le cas d'un échantillon de taille N, soient observées desdurées, complètes ou censurées, ti pour chaque individu i = 1, ...N. Cela revientà disposer, en plus de la valeur de ti, d'une variable indicatrice de censure Ci,telle que ci = I si la durée ti est censurée, et 0 sinon.La vraisemblance du modèle s'écrit alors :L = H Atiy.s(ti)(1-..).i=iEn effet, la probabilité qu'une durée soit censurée en ti , donc supérieure où égaleà ti est la valeur de la survie S(ti).La log-vraisemblance a donc pour formelog L = ci log f(ti) ( — ci) log S(ti).i=1 i=1Cette expression peut se simplifier en utilisant la relation h(ti) = f(ti)IS(ti),ce qui donnelog L = ci log h(ti) + log S(ti).Lorsque l'on spécifie une forme particulière pour h et donc pour S, avecéventuellement introduction de variables exogènes, on obtient simplement lavaleur de la fonction à maximiser en calculant log h(ti) et log S(ti).Données de survie 53

6.2 Algorithmes de maximisationLes procédures SAS utilisent des algorithmes de résolution numérique pourmaximiser la log-vraisemblance. Le plus utilisé est l'algorithme de Newton-Raphson, dont le principe est rappelé ci-dessous. La procédure NLIN permet,de plus, de choisir entre différents algorithmes de calcul, plus ou moins précisou rapides selon les cas (voir sections 9 et 10).Pour maximiser la log-vraisemblance log L = 1(p), il faut chercher une solution0* qui annule la dérivée de 1 par rapport à 0, également appelée vecteurdu score. Pour cela, l'algorithme de Newton-Raphson part d'une valeur initiale/3o, et résoud itérativement l'équation :+1 [821(apap,—181(5i )8,8Le second terme du membre de droite est appelé le pas de l'algorithme. Lesitérations se poursuivent jusqu'à ce que 1(f3j+1) —1(0i) soient très proches (pardéfaut, en général, dans les procédures SAS, l'écart entre les deux fonctionsdoit être finalement inférieur à 10-4). De plus, il est vérifié à chaque étape que1(0i+1) — l(1i) > 0. Si ce n'est pas le cas, on recalcule un nouveau 0.i+1 enréduisant le pas.Il faut noter que, dans les cas où la vraisemblance n'est pas strictementconcave, on n'est nullement assuré de la convergence de l'algorithmevers le maximum cherché, puisqu'aucune condition de second ordre n'a étévérifiée dans un premier temps. Si l'on a des doutes, il est possible de fixer desvaleurs initiales assez éloignées et d'effectuer plusieurs fois la maximisation afinde comparer les résultats. D'autre part, il est évident que la convergence estbeaucoup plus rapide si les valeurs initiales sont bien choisies, par exemple sielles sont le résultat d'une procédure d'estimation moins affinée.6.3 Propriétés de l'estimateurDe manière générale, l'estimateur du maximum de vraisemblance est asymtotiquementconvergent et normal, de variance asymptotique estimée:a21( /3i )1-/(e). [ 0flafl,—1La connaissance de cette loi asymptotique est essentielle pour effectuer destests de spécification, comme nous le verrons ci-dessous.54 INSEE Méthodes n° 56-57-58

6.4 Cas particulier d'un modèle de WeibullDans le cas d'un modèle de durée simple (sans sélection endogène), la logvraisemblances'écrit donc :log L = ci log h(ti) + log S(ti ),j.1 i.1où Ci est la variable indicatrice de censure. Dans le cas d'un modèle deWeibull à hasard proportionnel, le hasard s'écrit :h(ti) =où x est le vecteur ligne des valeurs prises par les variables exogènes pourl'individu i. La survie a pour forme :La log-vraisemblance vaut donc :nS(t) = exp[— exp(xii3)eix].log L = ci[log Œ + x8 + (a — 1) log 41 — (exp(x'03))tnnLes dérivées partielles de la log-vraisemblance par rapport à a et /3 valent :ô log LSanlog Lapc i [-à-1 + log ] —i=1ni=16.5 Tests sur les paramètresni=1exp(x;i3)tî' log tii=1exp(zP)tî.L'estirnateur du maximum de vraisemblance est, on l'a vu, asymptotiquementnormal. Cette propriété va permettre d'effectuer des test asymptotiques3 surles paramètres estimés. Le test le plus immédiat porte sur la significativitéd'une variable exogène. On peut aussi devoir tester l'existence d'une contraintelinéaire sur les paramètres : dans l'exemple du modèle de Weibull ci-dessus,tester si a = 1 revient à évaluer la significativité d'un modèle exponentiel. Onpeut également se demander si les coefficients de deux caractéristiques, par exempledes variables représentant des tranches d'âges voisines, sont différents ousemblables, etc...3C'est-.-dire quand le nombre d'individus étudiés est grand.Données de survie 55

Il existe trois grands types de tests asymptotiques applicables dans cecas. Présentons-les dans le cas général du test d'une contrainte linéaire sur lesparamètres. On veut tester :Ho : Lf3 = c, contreH1 : Lf3 e c, avec L et c, matrices de coefficients réels de taille convenable.L'idée de ces tests est simple. Le premier (test du rapport de vraisemblance)compare la valeur des log-vraisemblances sous les deux hypothèses. Sielles sont assez proches, on pourra accepter Ho. Cela nécessite de pouvoir calculersimplement les estimateurs /30 et Pi de fl sous les deux hypothèses. Onmontre que la quantité :LR = 2[log L(131) — log L(f30 )] converge en loi vers un x2(r), où r est le rangde L, c'est-à-dire le nombre de contraintes indépendantes sur les [3i.L'hypothèse nulle sera rejetée si la valeur calculée de LR dépasse un seuilcritique.Le second (test de Wald) revient à évaluer la contrainte à l'aide de )31. Sila valeur trouvée est assez proche de 0, on peut accepter l'hypothèses nulle. Onmontre que la quantitéW = (Lfli — c)[L17/(,31)L1(L,81 — c) converge en loi vers un x2(r), où r est lerang de L.L'hypothèse nulle sera rejetée si la valeur calculée de W dépasse un seuil critique.Ce test est particulièrement utilisé quand l'estimation sous l'hypothèsealternative est plus simple que sous l'hypothèse nulle.Le troisième (test du score) revient à calculer le vecteur du score sousl'hypothèse nulle. Si la valeur trouvée pour Lfli — c est assez proche de 0, onpeut penser que l'on ne s'éloigne pas trop du maximum de vraisemblance et quel'on peut donc accepter l'hypothèse nulle. On montre que la quantité :5 ( aLg30) y [aa2 f3ma po, ) ) ] -1 ( aLgo ) )converge en loi vers un x2(r), où r est le rang de L.L'hypothèse nulle sera rejetée si la valeur calculée de S dépasse un seuilcritique. Ce test est particulièrement utilisé quand l'estimation du score sousl'hypothèse nulle est simple.Ces tests sont asyptotiquement équivalents, c'est-à-dire que pour N infini,ils amèneront à prendre les mêmes décisions. Ils sont fréquemment proposésdans les procédures SAS qui seront développées par la suite. Le test du rapport56 INSEE Méthodes n° 56-57-58

de vraisemblance peut être calculé simplement par l'utilisateur même s'A n'estpas directement calculé en standard 4.Notons également que si l'on veut simplement tester la nullité d'un seulcoefficient du modèle, il est plus simple d'utiliser un test de Student qui estparfaitement équivalent au test de Wald. La statistique de Student s'écrit,comme dans un modèle de régression habituel,TV(Pi)C'est la racine carrée de la statistique de Wald calculée dans le cas précis oùla contrainte est j33 = O. T suit asymptotiquement une loi normale centréeréduite. Il suffit alors de comparer Tau seuil de significativité habituel de laloi normale (environ 2 pour un risque de 5%). Si T est inférieur au seuil, onacceptera l'hypothèse nulle.411 suffit en effet de procéder à deux estimations, l'une contrainte et l'autre non, et decalculer LR à l'aide de la valeur de la log-vraisemblance au maximum, qui figure dans toutesles éditions de résultats des procédures.Données de survie 57

7 Un estimateur non paramétrique : Kaplan-MeierL'estimateur de Kaplan Meier est très simple à calculer, et généralise la notionde fonction de répartition empirique en tenant compte des données censurées àdroite. C'est pourquoi il sert généralement de base à toute étude sur les durées.Il peut en effet guider le choix d'une forme paramétrique particulière. Rappelonsqu'il doit être calculé pour des populations homogènes.Pour comprendre le principe du calcul, plaçons-nous dans le cas où il n'y apas de censure. Alors la survie en t peut être simplement estimée par:S(t) = 1 — F(t) où .t(t) = nt /N,avec nt : nombre de durées inférieures à t et N : nombre total d'observations.Dans SAS, cette fonction de répartition empirique est simplement donnée parune PROC FREQ.On peut remarquer que la fonction de survie estimée peut s'écrire simplementcomme un produit de probabilités conditionnelles. Plaçons nous dans le cassimple sans censure et où on n'observe qu'une seule fois chaque valeur de durée,que l'on notera dans l'ordre croissant t0 , t1, ...tN, avec t0 = O. On a alorsS (t) P (T > t) P(T > tilT > ti _1 )= (1— q5),

Notons également que l'on peut l'utiliser pour estimer une durée moyenne :puisque l'espérance de la durée peut généralement s'écrire:E(T)on peut utiliser l'estimateur suivant :00u f (u) du = f S(u) du,T= tii=1I étant le nombre de durées différentes observées. La durée moyenne ne seradonc la moyenne empirique que s'il n'y a pas de censure.Ces estimateurs de la fonction de survie et du hasard sont programmés dansla PROC LIFETEST (voir plus loin pour le détail de sa mise en oeuvre).L'estimateur de Kaplan Meier a de bonnes propriétés : Il est en effet biaiséà distance finie, mais convergent et de loi asymptotique connue (Normale). Ilest donc possible d'utiliser les tests asymptotiques habituels.Il est également possible d'utiliser des méthodes non paramétriquespour tester l'homogénéité de deux sous-populations. On a vu plus hautque cette homdgénéité est essentielle pour interpréter correctement la forme duhasard. SAS fournit, dans la procédure LIFETEST, deux types de tests nonparamétriques.Le premier est un test de rangs généralisant le test de Wilcoxon à des donnéescensurées. Il revient à ordonner l'ensemble des durées T des deux échantillonscomparés, en conservant, de plus, l'information sur la censure (Di = 1 si la sortieest observée) et l'échantillon d'origine (Z = 1 si la durée i vient de l'échantillon1). On compare alors deux à deux les durées (Ti , Ti) et on attribue un score Uiià toutes ces paires :{ Uii = 1 si Ti > Ti et Di = 1Uisi = —1 si Ti < Ti et Di = 1Uii = 0 sinonOn construit alors la statistique de rang U = Ei E j i Uii Zi. Cela revientà sommer pour les durées de l'échantillon 1, les scores des paires non censurées.On peut montrer que la loi de U est asymptotiquement normale, de varianceconnue, sous l'hypothèse nulle du test (homogénéité des deux échantillons, soitmême loi de durée (en fait, même loi pour le couple (Ti, D — i))). Il suffit alors decomparer à 1,96 le rapport U/ Vo(U).0n montre également que la statistiqueDonnées de survie 59

de test U s'écrit de façon plus générale:U= r(ti) [di _ ri(i ii)]r(t)où les di sont les sorties non censurées en t„ et rl(ti) l'ensemble à risque del'échantillon 1.Le second test, dit du "log-rank", revient à comparer les probabilités desortie des deux échantillons à chaque date ti. La statistique de test est assezproche de la précédente, puisqu'elle s'écrit:V--r- ci;rl(tir_ r(ti) _Cette statistique est également asymptotiquement normale sous H0.Ces deux types de tests sont effectués dans la PROC LIFETEST. Ils permettentde tester l'homogénéité globale entre strates, mais aussi la significativitéd'exogènes particulières. Dans le premier cas, un vecteur T de statistiques derangs dont les composantes sont définies par Tk -7= Ei UZ où Zik estune variable indicatrice d'appartenance à la strate k.La statistique globale utilisée pour le premier type d'hypothèse est T1V-T(où V- est une inverse généralisée de la variance estimée de T) qui suit asymptotiquementun X2 (c — 1) où c est le nombre total de strates. Cette méthode eststrictement équivalente aux principes généraux des tests énoncés dans le paragrapheprécédent.60 INSEE Méthodes n° 56-57-58

8 Une estimation semi-paramétrique : le modèlede CoxUne méthode d'estimation semi-paramétrique est disponible dans la PROCPHREG de SAS(Versions 6). Elle concerne les modèles à hasard proportionnelsprésentés dans la partie 4.3 avec la spécification suivante pour la fonction dehasard:h(t I x; )3) = exp(x,3)ho (t),où ho est le hasard de base. Elle repose sur la maximisation de la "vraisemblancepartielle" de Cox.8.1 Vraisemblance partielle de CoxReprenons le cas où 1' on a ordonné les valeurs des I durées différentes observées:t i < t 2 < < ti et où il n'y a pas de censure. Soit comme précédemment r(t)l' ensemble à risque en ti.La probabilité pou que ce soit l' individu j de r(t)qui sorte en ti vaut:h ( t / ; 13)EkEr(,) h(ti/xk P)Le dénominateur est la probabilité qu' une sortie ait lieu en ti au sein del' ensemble à risque. Il vaut la somme des probabilités de sortie de tous lesindividus de cet ensemble. L' expression se simplifie puisque ho(t) figure dansde dénominateur et le numérateur, et elle vaut finalement:exp(xj,8)EkEr(to exP(x0)La vraisemblance partielle de Cox est le produit de ces probabilités pour l'ensemble des sorties (on supposera qu'il y en a en tout S < N):exp (s 13)L(13) =9 Eker(t,) exP(xkfl)S' il n'y a pas de censure, elle s'interprètre comme la vraisemblance de lastatistique de rang associée aux durées. L' estimateur semi-paramétrique de fiva être obtenu en maximisant la log-vraisemblance partielle par rapport à /3 aumoyen d'une méthode itérative(voir partie 6).L'estimateur obtenu converge presque sûrement vers et est asympotiquementnormal.Données de survie 61

8.2 Estimation non paramétrique du hasard de baseOn préfère, en général, estimer directement la fonction de survie. Dans le modèlede Cox, cette fonction a une forme simple : elle s'écritS(t) = [So(t)]exP .Cette relation découle de la définition du modèle et de la relation générale entrehasard et survie.Kabfleish et Prentice en déduisent une méthode d'estimation de la "surviede base" en deux étapes. Dans une première étape, on estime /3 par une maximisationde vraisemblance partielle. Ensuite, /3 étant remplacé par son estimationissue de la première étape, on maximise la vraisemblance par rapport à So.Cette procédure revient à estimer la survie de base par :oùÊo(t)=ti

d'où log H(t) — log Ho(t) fi. L'écart entre les deux courbes de hasardest donc constant. De manière générale, on trouvera un écart constant entreles divers groupes définis par les valeurs des exogènes si l'hypothèse dehasard proportionnel est vérifiée. Il existe également des tests paramétriquespour la spécification proportionnelle (Voir "Pour en savoir plus", en particulierMORS ALI).Données de survie 63

9 Les procédures SAS d'analyse des durées9.1 Estimations non paramétriques; la procédure LIFETESTCette procédure est utilisable sur des données pouvant être censurées à droite.Elle calcule des fonctions de survie par strates et propose des tests de rang afind'étudier l'homogénéité des strates.Mise en oeuvre simplifiée (principales options).PROC LIFETEST < Options 1 > ;TIME variable < Options 2 > ; Instructions obligatoiresBy variablesID variablesSTRATA variable < options 3 > ; Instructions facultativesTEST variablesOptions 1 :. DATA = ; précise la table SAS contenant les données.. INTERVALS = value ; fournit une liste des extrémités des intervallesutilisés dans les calculs de survie. Par défaut, SAS découpe la durée maximalede l'échantillon en dix intervalles. Ainsi, intervais = 5, 10 to 30 by 10 produitle découpage [0, 5), [5, 10), [10, 20), [20, 30), [30, Do).. METHOD = type ; par défaut, SAS utilise les estimateurs de Kaplan Meierde la survie ; on préférera METHOD = ACT si on veut connaître la fonctionde hasard empirique (option conseillée par la suite).. NOTABLE ; supprime l'impression de la fonction de survie (nécessaire surles fichiers de données individuelles).. PLOTS = (type ) ; produit à la demande les impressions :S : survie empiriqueLS : -Log(S)LLS : Log(-Log(S))H : hasard{ P : densité. OUTEST = data ; crée un fichier SAS contenant différents estimateurspour chacun des intervalles des différents strates :- variables BY et STRATA64 INSEE Méthodes n° 56-57-58

- MIDPOINT, milieu de l'intervalle- SURVIVAL, survie- PDF, densité- HAZARD, hasard.. OUTEST = Data ; crée un fichier contenant les statistiques de rang pourtester les liens entre durées de vie et covariables.Options 2:Variable indique le nom de la variable contenant la durée de vie ; elle peutêtre suivie d'une étoile et du nom de la variable indiquant la censure à droite ;par exemple :time t * flag(1, 2) ;identifie la variable t, censurée si la variable flag prend les valeurs 1 ou 2.Options 3:La variable STRATA détermine les sous populations sur lesquelles les estimateurssont calculés. Elle peut être numérique ou alphanumérique. Les donnéespeuvent être formatées dans l'instruction :STRATA age ;STRATA age (5 10 20 30) ;STRATA age (5 to 10) ;Test:L'instruction TEST fournit une liste de covariables numériques dont on veuttester les liens avec la durée de vie.Données de survie 65

The SAS SystemThe LIFETEST ProcedureSummary of the Number of Censored and Uncensored ValuesSX Total Failed Censored Censored1 11652 6548 5104 43.80362 13394 7150 6244 46.6179Total 25046 13698 11348 45.3086e. yr.) \er t/20 • ',DL-.proc lifetest data=a notable intervals=0 to 35 by 3method=act plots=(s,ls,h) outsurv=u;tistrata rate durmc(1); //sx;INSEE Méthodes n° 56-57-58,à,us;„ In“le U:1

The SAS Systemuns ap saauuoaSOFThe LIFETEST ProcedureSurvival Function Estimates1.0 + 8t +s t +u I ++✓ I ++y ! +i t +✓ 0.8 + ++a l t++1 +4.t +8D 4 + +i t A ++s 4 ++ +t 0.6 + + +✓ 4 ++++i t 4. +la t ++0+u t A++++t t ++ +++i t ++ +0+o 0.4 + ++ +++n 4 +A+ +++t +++ +8+F t +++ +++u t .1-444 ++4n 4 ++++ +0++++c t ++A++++++++0++t 0.2 +++++ A++++++i 1 ++++4++++o t ++++4E++++++++13++++n t ++++,A+44+++++X+.4.41-4.4-f-441I1-4+-FA!!0.0 +0 2 4 6 8 10 12 14 16 18 20 22 24 26 28 30 32 34 36DUR

-LOG SDFThe SAS SystemThe LIFETEST Procedure-Log(Survivel Function) EstimatesINSEE Méthodes n° 56-57-582.5 +2.0 +He 1g a1.5 +1o 1g1.0 +D10.5 +0.0 +++A++++++A++ ++++B++++++B++++++A++++++++++++B++++A++++++++++ +0+++A++ ++++++ ++++++ +B+++A+ +++++++ ++++A++ +8++++ ++++++ ++++6+ +8+++ +++++ 44-4-++ +5++A+ +++++ +++++ +5+++ ++++6+++++++8+++++++++A+++++B+++++++++0 2 4 6 0 10 12 14 16 18 20 22 24 26 28 30 32 34 36DUR

aluns ap saauuoaThe SAS SystemThe LIFETEST ProceclureHazard Function EstimatesHazard 1110.14 +A1+1 +1 +1 +1 +0.12 + +1 B +1 ++ +1 + +1 ++ +1 + A0.10 + ++ ++1 B ++H 1 + ++ ++Aa 1 ++ ++ ++++ +z 1 + A++ +a 1 + +r 0.08 + ++ ++8+ ++d 1 + ++++ +++ +1 8++ +++F 1 +8++++u 1 A++++++++8++++++++8++++++++8n ! ++++A++ +c 0.06 + ++++ ++ti11'++A++++++ ++A++8++ ++A++o 1 +++ +++++ ++++ + ++n 1 +A++ + ++ +++ ++1 8+ +A+ +++ +1 t+1 +1 +1 +1 +0.02 + B111!10.00 +11CYN'.01+ + + + + 4 + + + + + + + + + + + + +0 2 4 6 e 10 12 14 16 18 20 22 24 26 28 30 32 34 36DUR

The SAS SystemThe LIFETEST ProcedureTesting Homogeneity of Survival Curves over StrataTime Variable DURINSEE Méthodes n° 56-57-58cil tut w r o ut LIAts ola, rt‘-^,E5-1-2Rank StatisticsSX Log-Rank Wilcoxon S Y ol.Tri -t.: ci u..LA cl4 r a 1... jan &D u, .0 ^vou.. 1....4à1 490.98 8902672 1 I.,,, cl,,,,,, s-4 ., 1 ,..ltay.., c., ...b or'- orsro C.0,,2 -490.98 -8902672 j ....; , ,, d ,‘I a. 9 hou.. %,..-0,,,y4,...Covariance Matrix for the Log-Rank StatisticsSX 1 21 3023.22 -3023.22 Vaivam te m, p rt2 -3023.22 3023.22Covariance Matrix for the Wilcoxon StatisticsSX 1 2Test8.698E11 -8.7E11-8.7E11 8.698E11Test of Equality over StrataPr >Chi-Square DF Chi-SquaneV all_À 0,m Lt_Cie Vs) I Couy.Ria-, 43—.20 Log-Rank 79.7357 1 0.0001Wilcoxon 91.1198 1 0.0001 t r j.4:2Log(LR) 114.0473 1 0.0001 n,sz s,72 r.r.A;L: eA Ltd durijf\-b■L. I D r**%. trstr> tY C. m-Yr■Q...1~~E ûrnrrnk cL dra.)tr.ity,l (ILL Cz,„ IL, Itrioe.\t~Ls'é~i tocui,A . r o u, • cy.m. .41. 'pu^ 1141- ■-*1rcu-c.ctte,,Dh -431—o ot, r4,1 ve,Op-d- 1 d .4_2. 1-.,trre:C_42 (1-1..,%rs •

9.2 Estimations paramétriques9.2.1 la procédure LIFEREG.Cette procédure estime des modèles à durée de vie accélérée 5sous la forme :y = xb o-uoù exp(U) suit une loi connue (exponentielle, logistique, normale).Elle fournit en sortie des estimateurs de b et o-.LIEN AVEC DES MODÈLES CONNUSSoit T la variable aléatoire représentant la durée de vie.- dans le modèle exponentiel, log(OT) = U où exp(U) suit une loi exponentielled'espérance 1. De ce fait,y = log(T) = — log(0) + U.Si on pose t9 = exp(x/3), on obtient fi' = -6, en contraignant o- = 1.- dans le modèle de Weibull, log(\T) = E- où exp(U) suit à nouveau uneloi exponentielle d'espérance 1.La fonction de hasard s'écrit alors : 9(t) = aÀata-1.Si on pose Aa = exp(e) pour ramener à la spécification habituelle, onobtient :et par conséquent : & = -1 et =Uy = log(T) = —x— —a a- pour la fonction log-logistique avec :On retrouve & = -li et ij =Pour la fonction log-normale :11+ exp(exp(e)ta)5 Les modèles exponentiels et de Weibull sont à la fois des modèles à hasard proportionnelset à durée de vie accelérée. La procédure LIFEREG permet de les estimer aisément commedes modèles à durée de vie accelérée. On retrouve les paramètres de l'autre forme moyennantune simple règle de trois.Données de survie 71

log(t) — xb )P(t) = 1 4,.(On a directement les bons estimateursMise en oeuvre simplifiée (principales options).PROC LIFEREG < Options 1 > ;MODEL response = indépendants < Options 2 > ;Instructions obligatoir(BY variablesCLASS variablesOUTPUTWEIGHT variablesOptions .1 :< Options 3 > Instructions facultatives}DATA =OUTEST = data ; permet de récupérer les estimateurs dans data.COVOUT ; ajoute la matrice de variance-covariance dans OUTEST.Options 2 :* Censor (list) ; précise l'existence d'une censure à droite (voir LIFETEST).D = ; précise la distribution.EXPONENTIAL modèle exponentielWEIBULL WeibullLLOGISTIC log LogistiqueLNORMAL log normalOptions 3 :OUT = data précise le nom du data de sortie.Keyword = naine avecCENSORED = variable indicatrice d'une censureCDF = cumulativeXBETA = xb.. CLASS le même rôle que dans la PROC GLM.72 INSEE Méthodes n° 56-57-58

dJtUflS dp Sdd UllOaThe SAS SystemLifereg PracedureData Set=WORK.ADependent Variable=Log(Y)Censoring Variable=CCensoring Value(s)= 1Noncensored Values= 1986 Right Censored Values= 828Left Censored Values= 0 Interval Censored Values= 0Log Likelihood for WEIBULL -3745.566587 -3e- e,pa4(voir AS )ou'i rn a-4-41-r.; Sr.D.r‘e9%.Le.. pou.: lem.v r e Lo5 ra..1*,..i t-rt LeeLifereg ProcedureVariable DF Estimate Std Err ChiSquare Pr>Chi Label/ValueINTERCPT 1 6.66825994 0.3353.79 395.325 0.0001 Intercept -G.15AGE 1 2.58784818 0.190872 183.8205 0.0001 —4> b 2, •SCALE 1 0.9551992 0.016359Extreme value scale parameter

9.2.2 Utilisation de la PROC NLINUn inconvénient déjà cité de la PROC LIFEREG est de pas fournir les estimateursrecherchés, notamment pour le modèle de Weibull, mais des estimateursdivisés par Cr. En outre, cette procédure est fermée et ne permet pas deprendre en compte d'autres éléments de la log-vraisemblance, par exemple enprésence de sélection endogène. Un moyen d'obtenir les résultats recherchésconsiste à utiliser la PROC NLIN, en la paramétrisant afin qu'elle maximisela log-vraisemblance requise. Cette procédure permet en effet de maximiserune fonction quelconque une fois définies cette fonction (appelée fonction deperte, repérée par l'instruction _loss_) et sa dérivée. On fait alors exécuter àla PROC NLIN un algorithme de Gauss Newton (voir supra) dans lequel leHessien 802Lbe,L a été remplacé par son équivalent asymptotique, l'opposé del'espérance du produit des dérivées premières E[ aLeof r, ( 13Leoiq L ) ,1 i Dans ce cas,l'instruction MODEL devient inopérante et doit être remplacée afin de générersystématiquement un résidu de 1 afin de générer un score adéquat.74 INSEE Méthodes n° 56-57-58

ne(Jyrae;r... ?&-keproc nlin data=a sigsq=1 method=marquardt;Parms a=0.50 60=0 61=0;_ xb_=b0+age*bl;lsurv =(y**a)*exp(_xb_);loss =-( (_xt) +log(a)+(a-1)*logy)*d-_lsurv _ );der.b-d= d- ( lsurv );der.b1=(der.g0)*ag-e-;der.a= ((l/a + logy)Xd-logy*_lsurv_);model Y=Y-1;`re94'-'4".The SAS System09,54 Tuesday,Non-L n ar Least Squares Iterative Phase Dependent Variable Y Method: MarquardtIterABOAl Sum of Lossa 0.500000 0 0 8907.4850401 0.726234 -0.555944 0.174401 7162.0241782 1.167913 -2.439682 -0.068306 6400.4139073 1.105386 -3.641221 -0.814720 6294.9412424 1.082431 -5.186670 -1.687465 6232.096426 ,,,,k„,5 1.055668 -6.322047 -2.344031 6210.2591406 1.052072 -6.862114 -2.640263 6206.997045 ra-ilb,4,,/7 1.046155 -6.960325 -2.700334 6206.8053158 1.048412 -6.986344 -2.710340 6206.7954059 1.045939 -6.977509 -2.708854 6206.79384310 1.047751 -6.984691 -2.710024 6206.79312111 1.046240 -6.978401 -2.708780 6206.79266212 1.047443.- -6.983242 -2.709649 6206.79237113 1.046469 -6.979260 -2.708903 6206.79218014. 1.047252 -6.982442 -2.709489 6206.79205715 1,046620 -6.979869 -2.709012 6206.79197616 1.047129 -6.981940 -2.709395 6204.791924terion met.Non-Linear Least Squares Summary StatisticsIDependent Variable YSource IF Sum of Squares Mean SquareRegression3 215156.00000 71718.66667 c.„2,.,1Residual2811 2814.00000 1.00107 1Uncorrected Total 2814 217970.00000(Corrected Total) 2813 109487.13433Sum of Loss 6206.79192Parameter Estimate Asymptotic Asymptotic 95Std. Error Confidence IntervalLouerUpperA 1.047129225 0.02283216945 1.0023589197 1.0418995312BO -6.981939868 0.33730269406 -7.6433375854 -6.3205421512‘,■81 -2.709395068 0.18420119775 -3.0705847468 -2.3482053895Asymptotic Correlation MatrixCorr A BO BIABOBI1-0.301809437-0.138226033-0.30180943710.9840839573-0.1382260330.98408395731Données de survie 75

1 The SAS SystemNOTE: Copyright(c) 1989 by SAS Institute Inc., Cary, NC USA.NOTE: SAS (r) Proprietary Software Release 6.07 TS305Licensed to INSEE LILLE, FRANCE, Site 0002383002.NOTE: Running on IBM Modal 9121 Serial Humber 110337.BIENVENUE sous le Systeme SAS release 607VERSION EN PRODUCTION DEPUIS LE 15 MARS 1993NOTE: The SASUSER library was not specified. SASUSER library will now be the same as the WORK library.NOTE: Ail data sets and catalogs in the SASUSER library will be delated at the end of the session. Use the NOWORKTERM option toprevent their deletion.NOTE: SAS system options specified are:SORT=4 MEMSIZE.30MNOTE: The initialization phase used 0.16 CPU seconds and 756K.1 Options Nocaps;2 data a;set e.th;3 Y=YY;t=ta;4 logy=log(y);5 if t>0 then logt=log(t);alse logt=0;6 d.1-cens;7NOTE: The data set WORK.A has 3680 observations and 27 variables.NOTE: The DATA statement used 0.18 CPU seconds and 1099K.INSEE Méthodes n° 56-57-588 proc nlin data.a sigsq=1 mathod=marquardt;9 Paras a=0.50 b0=010 bcre2=0 bcre3=0 bcre4=011 bsant2.0 bsant3=0 bsant4=0 bsant5=0 bsant6=012 bage2=0 bage3=0 bage4=0 bage5=0 bage6=0 bage7=0 bage8=013 balloc1=0;14 array ax cre2-cre4 sant2-sant6 age2-age8 allocl;15 array ab bcre2-bcre4 bsant2-bsant6 bage2-bage8 ballocl;16 array ad der.bcre2-der.bcre4 der.bsant2-der.bsant617 der.bage2-der.bage8 der.ballocl;18 _xb.b0;do over ax;_xb_=_xb_+axXab;end;19 — lsurv .(yffla)Kexp(_xb_);21_ —lors .-( ( xb_+log(à")+-Ca-1)Klogy)Kd-_lsurv_+_lsurv0.... );22 Uer.b-0-= ( d= lsurv_+_1surv0_ );23 do over ad; — 1 1\24 ad.(der.b0)Kax;25 end;26 der.a. ((lia + logy)xd-logy)e_lsurv_+logtx_lsurv0_);27 modal y=y-1;NOTE: PROC NLIN grid search time was 0: 0: 3.NOTE: PROC HUN execution time was 0: 3:50.NOTE: The PROCEDURE NLIN printed pages 1-3.NOTE: The PROCEDURE NLIN used 19.78 CPU seconds and 1263K.20 lsurvii =(t)0(a)Kexp( xb );"}----- C.

ayUnS ap Sa?UU0(1The SAS SystemNon-Linear Least Squares Iterative Phase Dependent Variable Y Method: MarquardtItarABOOCREZBCRE30CRE4B5ANT285ANT3 Sum of LossOSANTSBSANT5BSANT6BAGE2BAGE3BAGE4BASES0AGE6BAGE7BASESBALLOC10 0.5000000o000o 9901.11212600000000 0 0 01 0.639119 -0.660212 -0.145124 -0.141295 0.237580 -0.023353 0.065083 8927.6200530.031295 0.121768 0.053060 -0.117099 -0.098363 -0.201913 -0.178264-0.166989 -0.286190 -0.298007 -0.0455022 0.937159 -1.878259 -0.354960 -0.310498 0.598386 0.064612 0.307097 0469.5780560.249309 0.487138 0.164600 -0.364173 -0.441418 -0.615229 -0.627447-0.716209 -1.055043 -1.080362 -0.0081133 0.916085 -1.840788 -0.325620 -0.256632 0.629418 0.165736 0.400500 8442.0373480.406455 0.618585 0.227385 -0.320970 -0.531591 -0.631808 -0.721405-0.872690 -1,395535 -1.505878 9.0070594 0.936042 -1.924070 -0.313132 -0.261466 0.638237 0.152028 0.386765 8440.6689950.393083 0.612341 0.216761 -0.312841 -0.516456 -0.631182 -0.711143-0.877049 -1.452859 -1.574241 0.0082885 0.925767 -1.884176 -0.308677 -0.254251 0.636393 0.158747 0.388150 8140.5265020.394547 0.612117 0.218169 -0.315263 -0.517036 -0.631829 -0.715722-0.875525 -1.466164 -1.579630 0.0066696 0.930789 -1,903764 -0.309260 -0.256070 0.636459 0.155643 0.387355 8440.4955070.393187 0.611893 0.215746 -0.315080 -0.517391 -0.631980 -0.714561-0.877622 -1.467057 -1.580060 0.0082997 0.928200 -1.893817 -0.308741 -0.255127 0.636224 0.157277 0,387598 8440.4879810,393685 0.611919 0.216676 -0.315084 -0.517199 -0.631690 -0.715007-0.876507 -1.467554 -1.579863 0.0074310.929471 -1.898685 -0.308930 -0.255488 0,636245 0.156460 0.387472 8440.4861320.393381 0.611861 0.216107 -0.315140 -0.517384 -0.631848 -0.714809-0.877113 -1.467499 -1.580002 0.0078919 0.928830 -1.896234 -0.308825 -0.255314 0.636209 0.156873 0.387526 8440.4856740.393519 0.611880 0.216376 -0.315108 -0.517303 -0.631753 -0.714894-0.876804 -1.467544 -1.579922 0.00765510 0.929147 -1.897446 -0.308873 -0.255394 0.636219 0,156666 0.387499 8440.4855600.393446 0.611867 0.216235 -0.315125 -0.517352 -0.631800 -0.714852-0.876961 -1.467527 -1.579963 0.00777311 0.928989 -1.896840 -0.308848 -0.255355 0.636212 0.156769 0.387512 8440.4855320.393401 0,611873 0.216304 -0.315118 -0.517329 -0.631776 -0.714872-0.876883 -1,467536 -1.579941 0.007714NOTE, Convergence criterion met.Non-Linear Least Squares - Summerv Statistics Dependent Va 61.5 YSource OF Sue of Squares Mean SquareRegression 10 2776365.0000 154242.5000Residual 3662 3680.0000 1.0049Uncorrected Total 3680 2780045.0000(Corrected Total) 3679 1429165 3!Sum of Loss

The SAS SystemParameter Estimate AsymptoticStd. ErrorAsymptotic 95Confidence IntervalALowerUPPer0.928988642 0.01679714612 0.8960553636 0.9619219200BO -1.896840082 0.08869075323 -2.0707313626 -1.7229488017BCRE2 -0.308848120 0.06189730114 -0.4302068927 -0.1874893475BCRE3 -0.255354535 0.07118437333 -0.3949219805 -0.1157870904BCRE4 0.636211648 0.05026439035 0.5376609097 0.7347623861BSANT2 0.156769478 0.07291495606 0.0138089709 0.2997299855BSANT3 0.387511728 0.07190195432 0.2465373595 0.5284860960BSANT4 0.393481021 0.06433264540 0.2673473974 0.5196146446OSANTS 0.611872603 0.07321428913 0.4683252090 0.7554199967BSANT6 0.216304308 0.06774999730 0.0834704630 0.3491381533BAGE2 -0.315117869 0.05908036215 -0.4309536178 -0.1992821199BAGE3 -0.517329103 0.06293084475 -0.6407142904 -0.3939439164BAGE4 -0.631775539 0.07156909241 -0.7720972828 -0.4914537959BAGE5 -0.714871720 0.08309325626 -0.8777882836 -0.5519551566BAGE6 -0.876882805 0.08800791202 -1.0494352748 -0.7043303353BAGE7 -1.467535725 0.09665347325 -1.6570390907 -1.2780323597BAGE8 -1.579941357 0.10012624833 -1.7762536097 -1.3836291050BALLOC1 0.007713562 0.05544145467 -0.1009875734 0.1164146967Asymptotic Correlation HatrixCarr A BO BCRE2 BCRE3 BCRE4 BSANT2 BSANT3 BSANT4 OSANTS8S-LS-95- 0u gaP0111PVA 1 -0.60824987 -0.06172492 -0.04620204 0.081961965 -0.02444655 0.053608745 0.032468422 0.070881502BO -0.60824987 1 -0.13171071 -0.23952389 -0.34257101 -0.27788346 -0.30990535 -0.33204981 -0.28984235BCRE2 -0.06172492 -0.13171071 1 0.371228597 0.546686421 -0.02573659 -0.06946145 0.005611338 -0.07575261BCRE3 -0.04620204 -0.23952389 0.371228597 1 0.457958334 0.013688122 0.007785048 0.025482736 -0.01012895BCRE4 0.081961965 -0.34257101 0.546686421 0.457958334 1 -0.00248192 0.005319205 0.019032348 -0.01380476BSANT2 -0.02444655 -0.27788346 -0.02573659 0.013688122 -0.00248192 1 0.477478414 0.530725712 0.472889249BSANT3 0.053688745 -0.30990535 -0.06946145 0.007785048 0.005319205 0.477478414 1 0.558720502 0.513463854BSANT4 0.032468422 -0.33204981 0.005611338 0.025482736 0.019032348 0.530725712 0.558720502 1 0.57109521OSANTS 0.070881502 -0.28984235 -0.07575261 -0.01012895 -0.01380476 0.472889249 0.513463854 0.57109521 1BSANT6 -0.08258511 -0.31930292 -0.06406762 -0.14500002 -0.07955073 0.466562859 0.465860891 0.519191492 0.460731824BAGE2 -0.15298561 -0.07497915 -0.01500272 -0.01040478 -0.01018628 -0.07595395 -0.15328812 -0.12129521 -0.09948079DAGE3 -0.20072141 -0.00364383 -0.05462895 0.01522364 -0.00594329 -0.0400145 -0.10849829 -0.17550166 -0.16927068BAGE4 -0.18236084 -0.01453258 -0.12898394 -0.02172015 -0.03009258 0.004498939 -0.09031632 -0.08956218 -0.12694187BAGE5 -0.15446322 0.008848179 -0.14251663 0.004386751 -0.01235297 -0.02300854 -0.07916651 -0.11655063 -0.18006147BAGE6 -0.20003946 0.046220298 -0.09752568 0.002693507 -0.0369603 -0.02089758 -0.0892705 -0.10180999 -0.1732832BAGE7 -0.18145882 0,042149166 -0.12005687 -0.0011079 -0.01424007 0.005239762 -0.05897986 -0.09195843 -0.10850112BAGE8 -0.17930378 0.048504181 -0.17681905 -0.01426501 -0.01939413 -0.03370265 -0.08067627 -0.07586762 -0.17284731BALLOCI 0.075773879 -0.4308824 -0.13388365 0.042018526 -0.13189607 -0.12121762 -0.10442226 -0.13713893 -0.11522192

amans ap saputiouCorr BSANT6 BAGE2 BAGE3The SAS SystemAsymptotic Correlation MatrixBAGE4 BAGE5 BAGE6 BAGE7 BAGE8 BALLOC1A -0.08256511 -0.15298561 -0.20072141 -0.18236084 -0.15446322 -0.20003946 -0.18145882 -0.17930378 0.075773879BO -0.31930292 -0.07497915 -0.00364303 -0.01453258 0.008848179 0.046220298 0.042149166 0.048504181 -0.4308824OCREZ -0.06406762 -0.01500272 -0.05462895 -0.12898394 -0.14251663 -0.09752568 -0.12005687 -0.17681905 -0.13388365OCRES -0.14500002 -0.01040478 0.01522364 -0.02172015 0.004386751 0.002693507 -0.0011079 -0.01426501 0.042018526BCRE4 -0.07955073 -0.01018628 -0.00594329 -0.03009258 -0.01235297 -0.0369603 -0.01424007 -0.01939413 -0.13189607BSANT2 0.466562859 -0.07595395 -0.0400145 0.004498939 -0.02300854 -0.02089758 0.005239762 -0.03370265 -0.12121762BSANT3 0.465860891 -0.15328812 - 0.10849829 -0.09031632 -0.07916651 -0.0892705 -0.05897986 -0.08067627 -0.10442226BSANT4 0.519191492 - 0.12129521 - 0.17550166 -0.08956218 -0.11655063 -0.10180999 -0.09195843 -0.07586762 -0.13713893BSANT5 0.460731824 -0.09948079 -0.16927068 -0.12694167 -0.18006147 -0.1732832 -0.10850112 -0.17284731 -0.11522192BSANT6 1 0.035438379 0.024103824 0.044338329 0.017150947 0.022057617 0.020043808 -0.00057826 0.030491443BAGE2 0.035438379 1 0.368902838 0.322045832 0.284663236 0.275558207 0.248395244 0.244098422 -0.01495185BAGE3 0.024103824 0.368902838 1 0.341194016 0.317213429 0.303325407 0.276470095 0.274077547 -0.07897482BAGE4 0.044338329 0.322045832 0.341194016 1 0.287122066 0.272226878 0.250146447 0.257877598 -0.04561988BAGE5 0.017150947 0.284663236 0.317213429 0.287122066 1 0.258067704 0.236551464 0.249737012 -0.06519102BAGE6 0.022057617 0.275558207 0.303325407 0.272226878 0.258067704 1 0.223501445 0.23314897 -0.06707533BAGE7 0.020043808 0.246395244 0.276470095 0.250148447 0.236551464 0.223501445 1 0.214516795 -0.06481245BAGE8 -0.00057826 0.244098422 0.274077547 0.257877598 0.249737012 0.23314897 0.214516795 1 -0.05317916BALLOC1 0.030491443 -0.01495185 -0.07897482 -0.04561968 -0.06519102 -0.06707533 -0.08481245 -0.05317916 1

9.3 Estimations semi-paramétriques, la procédure PHREGElle est utilisable sur des données non censurées ou censurées à droite. Ellecalcule un estimateur non paramétrique du hasard de base et des estimateursparamétriques des coefficients associés aux covariable affectant le hasard de basesous la forme exp(x13).Mise en oeuvre simplifiée:PROC PHREG < Options 1 >;MODEL Urne * flag()=- exogènes;FREQ variable(entière);OUTPUT < Options 2 >;BASELINE < Options 3 >;Options 1:{ DATA=OUTEST = data ; nom du data qui contiendra les estimateurs des covariablesCOVOUT ajoute dans OUTEST la matrice de variance-covarianceOptions 2:nom du data de sortie construit à partir du tableauOUT= datainitial et contenant les statistiques requises .XBETA = x9SURVrVAL surviei LOGSURV Log(survie)Options 3:OUT= data1 COVARIATES. dataX B E rA =St RVIVALLOGSURVnom du data de sortie contenant la valeur de la surviepour les valeurs possibles de Urnenom du data contenant les valeurs des covariables pourlesquelles on cherche à calculer la survie(par défaut, SAS prend les valeurs moyennesde ces covariables dans le fichier)xi3survieLog(survie)!c'S 55-57-58

ns ap saauuouThe SAS SystemThe PURE° ProcedureData Set: WORK.ADependent Variable: DURCensoring Variable: CCensoring Value(s): 1Ties Handling: BRESLOWCriterion-2 LOG LScoreWaldSummary of the Number ofEvent and Cansored ValuesPercentTotal Event Censored Censored25046 13698 11348 45.31Testing Global Null Hypothesis: BETA=0WithoutWithCovariates Covariates Modal Chi-Square257467.329 257396.229•Analysis of Maximum Likelihood Estimatest14 proc phreg data=a;15 model durac(1)=femmes;16 baseline out=b covariates cov survival=s logsurv=ls;NOTE: The PROCEDURE PHREG used 4.85 C seconds and 3171K.NOTE: The data set WORK.B has 105 obser ations and 4 variables.NOTE: The PROCEDURE PHREG printed page71.100 with 1 DF (p=0.0001)71.435 with 1 DF (p=0.0001)71.311 with 1 DF (p=0.0001)Parameter Standard Wald Pr >RiskVariable DF Estimate. Error Chi-Square Chi-Square RatioFEMMES 1 I -0.144535 S 0.01712 71.31139 0.0001 0.865I ra.ta--.1 à.■ rln.46 _, „,,)„,„, eD\r)t,..e.tk-• o cares. Gaiai. Ifpx

OBSFEM ESThe SAS SystemOURSLS1 0 1.00000 0.00000 Cr-Pa.e sis20 0.86263 -0.1477731 0.74747 -0.29105 -P. -1214 2 0.66471 -0.408415 3 0.59660 -0.5165167450.534750.48380-0.62596-0.726088 6 0.44450 -0.810819 7 0.40534 -0.9030410 8 0.37649 -0.9768611 9 0.34752 -1.0569212 10 0.30782 -1.1782513 11 0.28266 -1.2635114 12 0.26013 -1.3465715161314Q.243040.2264917 15 0.20933 -1.5638518 16 0.19677 -1.6257219 17 0.18553 -1.6845620 18 0.17605 -1.7370121 19 0.16267 -1.8160322 20 0.15181 -1.8851023 21 0.14012 -1.9652724 22 0.13316 -2.0162325 23 0.12786 -2.0568126 24 0.12105 -2.1115727 25 0.11787 -2.1382128 26 0.10999 -2.2073429 27 0.10280 -2.2749730 28 0.09838 -2.3189131 29 0.09496 -2.3543032 30 0.08903 -2.4098633 32 0.08519 -2.4629234 33 0.08199 -2.5011735 34 0.07561 -2.5821336 0 1.00000 0.0000037 0 0.87996 -0.1278838 1 0.77733 -0.2518939 2 0 . 70226 -0.3534440 3 0 . 63955 -0.4470041 4 0 .58 175 -0.5417242 5 0 . 53346 -0.6283743 6 0 . 49575 -0.7016944 7 0 . 45771 -0.7815145 8 0 . 42939 -0.8453946 9 0 . 40064 -0.9146947 10 0 . 36 07 1 -1.0196948 11 0 . 33505 -1.0934749 12 0 . 31 181 -1.1653650 13 0 . 29400 -1.2241851 14 0 . 27660 -1.2051952 15 0 . 25836 -1.3534053 16 0 . 24489 -1.4069354 17 0 . 23273 -1.4578655 18 0 . 2224 1 -1.5032556 19 0 . 20770 -1.57164-1.41455-1.48504 ,D)82 INSEE Méthodes n° 56-57-58

The SASSystemOBSFEMMESOURSLS57 1.00000 20 0.19565 -1.6314158 1.00000 21 0.18254 -1.7007959 1.00000 22 0.17466 -1.7449060 1.00000 23 0.16864 -1.7800161 1.00000 24 0.16083 -1.8274162 1.00000 25 0.15716 -1.8504663 1.00000 26 0.14804 -1.9102964 1.00000 27 0.13962 -1.9688165 1.00000 28 0.13441 -2.0068466 1.00000 29 0.13036 -2.0374767 1.00000 30 0.12424 -2.0055568 1.00000 32 0.11866 -2.1314769 1.00000 33 0.11480 -2.1645770 1.00000 34 0.10703 -2.23464j71 0.53478 0 1.00000 0.0000072 0.53478 0 0.87217 -0.1367873 0.53478 1 0.76383 -0.2694174 0.53478 2 0.68521 -0.3780375 0.53478 3 0.61997 -0.4780976 0.53478 4 0.56023 -0.5794077 0.53478 5 0.51065 -0.6720778 0.53478 6 0.47213 -0.7505079 0.53478 7 0.43350 -0.8358780 0.53478 8 0.40487 -0.9041981 0.53478 9 0.37595 -0.97831 ç 1. • fr,,, Dt,82 0.53478 10 0.33601 -1.0906183 0.53478 11 0.31052 -1.1695284 0.53478 12 0.28753 -1.24641 do, -P85 0.53478 13 0.27000 -1.3093386 0.53478 14 0.25295 -1.3745887 0.53478 15 0.23515 -1.4475388 0.53478 16 0.22206 -1.5047989 0.53478 17 0.21029 -1.5592690 0.53478 18 0.20033 -1.6078091 0.53478 19 0.18620 -1.6809592 0.53478 20 0.17467 -1.7448893 0.53478 21 0.16217 -1.8190994 0.53478 22 0.15470 -1.8662695 0.53478 23 0.14900 -1.9038296 0.53478 24 0.14163 -1.9545197 0.53478 25 0.13818 -1.9791798 0.53478 26 0.12962 -2.0431699 0.53478 27 0:12175 -2.10575100 0.53478 28 0.11690 -2.14642101 0.53478 29 0.11313 -2.17918102 0.53478 30 0.10746 -2.23061103 0.53478 32 0.10231 -2.27972104 0.53478 33 0.09875 -2.31513105 0.53478 34 0.09162 -2.39007Données de survie 83

10 Pour en savoir plusDes éléments théoriques plus détaillés sur les modèles de durée figurent dans lesdocuments ci-dessous. Vous y trouverez en particulier les démonstrations despropriétés énoncées dans ce fascicule, des propositions de tests supplémentaires,et d'autres exemples d'applications,...ainsi qu'une bibliographie plus complète.- J.J. DROESBEKE, B. FICHET, P. TASSI, "Analyse statistique desdurées de vie-Modélisation des données censurées ", Economica, 1989.- C GOURIEROUX," Econométrie des variables qualitatives", Economica,1989.- T. LANCASTER, "The Econometric Analysis of Transition Data" , EconometricSociety Monographs, Cambridge University Press, 1990.- A, MOREAU, "Econométrie des variables de durée", Note Départementrecherche N.123/G 305, 1989.Les descriptions complètes des procédures SAS présentées figurent bien entendu,avec des exemples supplémentaires, dans les manuels de référence deSAS-V6. La procédure PHREG fait l'objet d' un fascicule spécifique.84 INSEE Méthodes n° 56-57-58

Recensement de la populationdu Canada en 19910Expérience avec un systèmede codification automatiqueJocelyn Tourigny,Statistique Canada1. INTRODUCTIONLa codification des libellés du recensement canadien de la population de 1991constitue la première utilisation massive du système généralisé CART(Codification Automatique par Reconnaissance de Texte), logiciel développé àStatistique Canada. Durant le traitement du recensement plus de 16 millions delibellés en clair provenant de 10 questions couchant la langue, la religion, lelieu de naissance, l'origine ethnique, l'éducation ec la mobilité ont été traitéspar le logiciel CARI. Un taux de succès de 922 a été obtenu avec un taux d'erreurinférieur à 1%. Pour ces questions, les coûts de l'opération de codification ontété réduits de moitié par rapport à la procédure de codification traditionnelle.Le présent document est divisé en deux parties. Dans la première partie nousdécrivons la méthodologie du système de codification automatique CART. Dans laseconde partie, nous présentons l'application de codification automatique durecensement canadien de 1991 et les résultats obtenus. La conclusion décrit lesprojets de codification pour le recensement de 1996.2. SYSTÈME DE CODIFICATION AUTOMATIQUE (CART)2.1 PROBLÉMATIQUE DU CODAGEDans le contexte d'une enquête, Les libellés en clair sont très utiles lorsquela variable étudiée a un ensemble de réponses possibles très vaste ou lorsquecertaines réponses ne peuvent'etre prédites. Ce type de libellé dans une questionpermet:une économie dans la formulation de la question en offrant au répondantmoins de choix à cocher (parfois le nombre de questions sur le sujet peutêtre réduit afin de laisser de l'espace pour des questions sur d'autressujets);d'être objectif en réduisant ou éliminant la structure artificielle deschoix proposés (et l'ordre de ces choix) et de contrer la tendance durépondant à sélectionner le premier choix approprié;d'obtenir une variété de réponses permettant une revue de laclassification et parfois sa mise à jour; etd'être plus simple pour le répondant: ses réponses sont du même médium quela question.Toutefois, afin de faciliter la synthèse et l'analyse statistique, il estnécessaire de grouper ensemble les libellés en clair qui, suivant uneConférences spéciales 85

nomenclature existante (par exemple: la nomenclature des langues), ontessentiellement le méme sens. Cette opération est dénommée codification.Traditionnellement, la codification est une opération effectuée par des commissans aucun support informatique. Utilisant un libellé en clair (parfois desinformations annexes soumises par le répondant) et les instructions decodification produites par un spécialiste de la nomenclature, un commis chercheun libellé dans un manuel de nomenclature. Le code associé au libellé est inscritsur le questionnaire. C'est ce code qui, au lieu du libellé, est saisi avec lesautres réponses du répondant.Il peut y avoir des variations à cette approche, telles l'interprétation de laréponse du répondant, l'utilisation de procédures spéciales et complexes et laréférence du problème à un expert en codification.Les problèmes rencontrés lors de la codification par des commis se situent àplusieurs niveaux.La codification est sujette à erreur. Il est difficile de chercher dans unmanuel de nomenclature qui a parfois plus de 50,000 entrées. Lesinstructions peuvent être inadéquates ou être parfois appliquéesincorrectement par le commis. Les libellés sont parfois vagues et leurinterprétation est très subjective, d'où la possibilité d'un mauvaischiffrement en des codes statistiques. Cependant seul un commis peutrepérer et solutionner adéquatement un cas "difficile".Bien contrôler l'opération de codification est un défi. Codifierprécisément nécessite beaucoup de jugement et il est parfois trèsdifficile de choisir le bon code numérique. Il n'est pas surprenant detrouver beaucoup de variation entre le chiffrement de différents commis,et méme, à l'intérieur du travail d'un même commis. Il faut doncdévelopper un 'programme de formation étoffé, obtenir le support continud'experts et développer un contrôle qualitatif approprié.L'opération de codification est difficile à administrer. Il s'agit d'uneopération qui exige beaucoup de temps et de ressources. La courte duréede l'opération peut difficilement être réduite sans affecter les coûts etla qualité. Il faut donc engager et motiver un groupe important d'employéstemporaires pour effectuer un travail relativement monotone et espérer unerotation de personnel minimale.Pour remédier aux désavantages énumérés, plusieurs pays ont développé etutilisent avec succès des systèmes de codification automatique, notamment laFrance, la Suède et les États-Unis. Statistique Canada a aussi mis au point unsystème de codification automatique pouvant répondre aux besoins de plusieursenquêtes. Ce système généralisé, connu sous le sigle de CART (pour CodificationAutomatique par Reconnaissance de Texte) est utilisé par quelques enquêtes doncla plus importante fut le recensement de 1991.2.2 MÉTHODOLOGIE DU CODAGE AUTOMATISÉ (CART version 1.06)Cette section décrit les éléments principaux de la méthodologie de lacodification automatique; ces éléments sont détaillés pour mieux comprendre cequi constitue la force et parfois la faiblesse du système CART selon la questionà chiffrer.86 INSEE Méthodes n° 56-57-58

2.2.1 GénéralitésLes méthodes utilisées par le système CART s'inspirent de méthodes qui ont étéélaborées à l'origine au Bureau du Recensement américain (Hellerman, 1982) et del'expérience de Statistique Canada dans le développement d'algorithmes et desystèmes d'appariement des dossiers administratifs. Essentiellement, la méthodeconsiste à examiner une série de libellés préalablement codés. Si le libellé àchiffrer est repéré, le code correspondant est enregistré et l'opération prendfin. Dans le cas contraire, l'examen se poursuit en faisant intervenir unalgorithme pour repérer le libellé le plus comparable; une fois cette opérationréalisée, le système attribue le code correspondant.Ce repérage est rendu complexe par le fait que le langage humain a plusieursfaçons d'exprimer la même chose. Les mots ne sont pas toujours dans le bon ordre,un mot important peut étre absent, un mot non pertinent peut étre présent, un motpeut ètre un synonyme ou une abréviation d'une expression, ou les règles deponctuation et de syntaxe peuvent ne pas avoir été respectées. CARI tente decontourner ces difficultés grâce à un traitement préalable des libellés et à sesdeux techniques d'appariements.La figure 1 représente les différents modules du système CART que nous décrirons.Fichier de référencePhrases et codesFichier d'enquêtePhrases candidatesNormalisationAppariementDirectAppariementIndirectRésultats:Gagnants multiplesPotentielsSans codeRésultats:Gagnantfigure 1: système CARTConférences spéciales 87

2.2.2 Fichier de référencePour chaque question à chiffrer, il faut en premier lieu créer un fichier deréférence contenant les libellés en clair typiques (dites phrases) pour unequestion donnée. Ce fichier comprend les phrases et leur code numérique associé.Il est construit à partir de manuels de nomenclature standard, de phrasescodifiées par des experts provenant d'une enquête similaire conduiteantérieurement ou d'une combinaison de ces deux sources comme dans le cas durecensement de la population de 1991. Idéalement les phrases choisies sontreprésentatives des phrases les plus fréquemment observées lors d'une opérationd'appariement. II est recommandé de conserver les phrases dans leur formeoriginale, avec les erreurs d'orthographe, de grammaire et de syntaxe. Ce fichierde phrases et de code numérique est intégré à une base de données servant àfaciliter les opérations d'appariement.2.2.3 NormalisationLes phrases du fichier de référence et celles devant être chiffrées sont misessous une forme normalisée (terme anglais: parsing) afin de permettre àl'ordinateur de reconnaitre comme identique les réponses qui sont sémantiquementéquivalentes. CART fournit à l'usager un module de normalisation très flexible.Dans un premier temps, les phrases sont considérées comme une suite ininterrompuede caractères; on ne reconnait pas que la phrase contient des mots, des espaceset des signes de ponctuation. Cette suite de caractères est analysée par lesystème afin de déterminer les mots distincts. Les mots distincts sont ensuitescrutés et mis sous forme normalisée; cette dernière étape réduit le problème dessynonymes, des mots doubles, des mots vides, des suffixes différents, etc.L'annexe A donne la liste des fonctions de normalisation offertes par CART.2.2.4 Appariement directLes mots normalisés de la phrase candidate sont placés en ordre alphabétique etla phrase est comprimée pour former une "clé d'expression condensée" dont lalongueur équivaut en moyenne à 35% de la longueur initiale de la phrase. Enpratique, cette clé est construite par l'élimination des espaces entre les motsnormalisés et en convertissant en des codes de 8 bits les caractères (lettres etchiffres) individuels et les combinaisons fréquentes de caractères (digrammes ettrigrammes seulement). La clé est utilisée pour chercher un appariement "exact"dans le fichier de référence où chaque phrase possède déjà sa clé.2.2.5 Appariement indirectCette méthode consiste à chercher l'appariement le plus "comparable" de la phrasecandidate dans le fichier de référence. Toutes les phrases qui possèdent un ouplusieurs mots normalisés en commun avec la phrase candidate sont extraites dufichier de référence. Le système évalue chacune de ces phrases ec leur attribueun "pointage". Ce pointage, combiné à certains paramètres établis a priori,permet de déterminer s'il existe un appariement "gagnant", des appariements88 INSEE Méthodes n° 56-57-58

"gagnants multiples" ou "potentiels" dans le fichier de référence. Cette méthodeest inspirée des travaux de Hellerman (1982) et de Knaus (1981).2.2.5.1 Calcul d'un poids pour chaque mot normalisé du fichier de référenceLe système calcule un poids pour chaque mot normalisé contenu dans le fichier deréférence. Ce poids donne une indication du pouvoir de discrimination du mot,c'est-à-dire si le mot peut conduire à un seul code numérique.Le poids heuristique d'un mot est construit de telle façon que le poids diminuelorsque le nombre de codes auquel il est associé augmente. Le poids H d'un mota la forme:E, -Em+eH-où:Em=-E(pi*log,p1) et Eu=.1og,(1)Emest l'entropie du mot. L'entropie est une mesure de l'uniformité d'unedistribution. Lorsqu'un mot est particulier à un seul code, l'entropie estnulle; elle atteint son maximum lorsque le mot est associé à tous lespostes (soit les n codes) de la nomenclature.Pi est la proportion d'occurrences du mot dans le fichier pour le code;cette quantité représente donc une mesure de la probabilité qu'étant donnéle mot, le code approprié est le code i.xipi= 7Pi'x, est le nombre d'occurrences du mot considéré parmi les phrases qui ont lecode iest une petite constante arbitraire pour éviter une division par 0 dansl'éventualité où Eu — 0 (qui correspond à la situation où un mot estparticulier à un seul code).E=-- logk+1 2 k+.1Conférences spéciales 89

2.2.5.2 Calcul d'un pointage pour chaque phrase appariéeChaque phrase du fichier de référence qui contient au moins un mot normalisé encommun avec la phrase candidate est considérée comme un appariement potentiel.Une méthode de pointage a été mise au point afin de déterminer la phrase la plus"comparable"; ce pointage est basé sur le nombre de mots contenus dans la phrasecandidate qui sont "valides" dans le fichier de référence, le nombre de mots dela phrase du fichier de référence, et sur le poids des mots communs aux deuxphrases. La formule utilisée est la suivante:P(nombre de mots en commun)' * (E poids des mots en commun)(nombre de mots valides * (nombre de mots dans ladans la phrase candidate) phrase du fichier de ref.)En présence de deux phrases identiques (donc d'un appariement exact), la formuledevient:P - (nombre de mots en commun) * (E poids des mots en commun)2.2.5.3 Évaluation des appariements et choix d'un gagnantAvant de procéder à un appariement indirect, l'usager fournit des valeurs auxtrois paramètres suivants:1: MIN: borne inférieure du pointage2. MAX: borne supérieure du pointage3. PCNT: pourcentage de différenceSupposons que m appariements potentiels existent dans le fichier de référence.Ordonnons les pointages obtenus par ces phrases en ordre décroissant:P, > P, > > P,Quatre situations peuvent se produire:i) Si P, >- MAX et P, - P, >- PCNTP,alors la phrase ayant obtenu le pointage P, est gagnante et son codenumérique est assigné à la phrase candidate.ii) Si P, >- MAX et P, - P, < PCNTP Ialors toutes les phrases i telles que P, >- MAX sont considéréescomme étant gagnantes multiples.iii) Si MIN

Toutes les phrases candidates se trouvant dans les situations ii, iii ou iv ainsique celles qui ne sont pas appariées au fichier de référence doivent êtrecodifiées par des commis. Durant les tests précédant la production, toutes cesphrases candidates disponibles sont étudiées dans le.buc d'améliorer le fichierde référence, les règles de standardisation et les paramètres d'évaluation desappariements.2.2.6 Performance de CARTLa technique d'appariement direct grâce à son utilisation de la clé d'expressioncondensée est très efficace même lorsque le fichier de référence est trèsvolumineux.Pour rendre l'appariement indirect plus efficace, CART identifie toutes lesphrases du fichier de référence qui contiennent le mot de la phrase candidateayant le plus haut poids ec il établit leur pointage. Avant d'identifier lesphrases additionnelles contenant le mot ayant le second poids en importance, unpointage potentiel est estimé. Lorsque ce pointage potentiel est inférieur auparamètre MIN la recherche est arrêté. Sinon l'identification et le calcul despointages se poursuivent.3.1 Généralités3. L'APPLICATION DE CODIFICATION DU RECENSEMENT 1991Le recensement canadien da ,la population et des logements utilise deux types dequestionnaires auto-administrés pour recenser plus de 10 millions de logements.Durant l'établissement de la liste des logements de son secteur de dénombrement,le représentant du recensement distribue un questionnaire abrégé à 80% deslogements et un questionnaire complet à 20% des logements suivant unéchantillonnage systématique. Le répbndant retourne par la poste le questionnairecomplété. Le représentant du recensement vérifie les réponses et fait les suivistéléphoniques et en personne nécessaires pour corriger certaines réponsesincohérentes ou incomplètes.Le questionnaire complet est l'équivalent de la feuille de logement et de sixbulletins individuels du recensement de la République Française; par contrebeaucoup plus d'information sur les caractéristiques des personnes sontrecueillies. Le questionnaire abrégé est une version réduite du questionnairecomplet où seulement les questions de base sur le logement et les personnes sontincluses (e.g. type de logement, logement occupé par un propriétaire oulocataire; relation avec la personne de référence, sexe, date de naissance, étatmatrimonial légal, première langue apprise). Pour répondre à une question lerépondant doit cocher un cercle, écrire un nombre ou imprimer un libellé enclair.Quelques libellés sont codifiés par des commis à la préparation pour la saisiedes données. Toute l'information des questionnaires abrégés.et complets, àl'exception des libellés déjà codifiés, est saisie en une seule opération sur unepériode de 4 mois. Pour chaque variable à codifier de façon automatique, leConférences spéciales 91

libellé en clair (dite phrase dans la terminologie de CART) ainsi que desvariables annexes reliées à la personne et aux autres membres du logement sonttransférées sur une base de données pour faciliter l'opération de codification.L'application de la codification du recensement de 1991 est illustrée à la figure2. L'application est hautement intégrée. Elle englobe la codification automatiquepar CART, la codification des commis assistée par ordinateur, le contrôlequalitatif des deux types de codification et la rectification des erreurssystématiques. Aucun retour au questionnaire n'est nécessaire et le système prendles décisions dans la majorité des situations.Phrases candidateset variables annexesCARIAppariement directCARTAppariement indirectTable duContrôle QualitatifRésultats de CARTCodificationAssistée par ordinateurTable duContrôle QualitatifRésultats des commisRésultats de laCodificationRectification deserreurs systématiquesfigure 2: module de l'application de la codificationLes 10 questions soumises à la codification automatique sont présentées àl'annexe B. De ces questions, 12 applications semblables mais personnalisées ontété établies (une application pour chaque question, une application pour unequestion qui a besoin d'un second fichier de référence et une dernièreapplication pour une question qui apparaît sur le questionnaire abrégé et completavec des variations dans l'information annexe disponible).Les prochains paragraphes détaillent chacun des modules de ces applications.92 INSEE Méthodes n° 56-57-58

3.2 CART - appariement directSeule la phrase est utilisée pour la codification automatique. Les phrases sontordonnées par ordre alphabétique et regroupées par phrase unique. C'est cettephrase unique qui est normalisée et appariée avec les phrases normalisées dufichier de référence. S'il y a appariement toutes les phrases correspondantesreçoivent le même code et le résultat est inscrit dans la table du contrôlequalitatif des résultats de CART.Pour le recensement canadien, la codification automatique de 9 des 10 questionsprovient uniquement de cette méthode d'appariement. Seule la question Lieu derésidence, il y a cinq ans (libellé des villes et municipalités canadiennes)utilise également l'appariement indirect pour augmenter son taux de codificationautomatique.3.3 CART - appariement indirectToutes les phrases uniques non chiffrées sont ensuite soumises à la méthode desappariements indirects. Pour augmenter son taux de codification automatique,seule la question Lieu de résidence, il y a 5 ans (libellé des villes etmunicipalitéS canadiennes) peut obtenir un appariement gagnant, c'est-à-dire unecodification automatique; dans ce cas, toutes les phrases correspondantesreçoivent le même code ec le résultat est inscrit dans la table du contrôlequalitatif des résultats de CART. L'information concernant les appariements"gagnants multiples" et "potentiels" (la phrase appariée, le code correspondantet le pointage) est inscrite au dossier de toutes les phrases correspondantes àcette phrase. Cette information sera utilisée à la codification assistée parordinateur. S'il n'y a pas d'appariement ou seulement des appariements dont lepointage est inférieur au pointage minimal MIN, aucune information n'estconsignée.3.4 CART - notes sur l'exécutionPlusieurs applications ont partagé les mêmes fichiers de référence et les mêmesstratégies de normalisation. Ces fichiers bilingues furent bâtis à partir desentrées des manuels de nomenclature, d'un échantillon de libellés du recensementde 1986 et des libellés d'enquêtes-ménages courantes.Puisque l'exécution était faite sur une base journalière, il fut possibled'analyser régulièrement les résultats de CARI et les phrases non chiffrées. Lesfichiers de référence furent mis à jour cinq fois afin d'augmenter le tauxd'appariement automatique et la qualité des résultats. Aucune amélioration desstratégies de normalisation n'était permise parce leur impact sur la qualité desrésultats était imprévisible.3.5 Codification des commis assistée par ordinateurL'ordinateur scrute le fichier original des phrases candidates (ordonnéesalphabétiquement) et prépare des lots de 200 phrases non chiffrées pour lesConférences spéciales 93

commis. Le commis n'a pas accès au questionnaire original, mais l'informationsuivante apparaît sur 2 écrans (voir figure 3 et 4, page Il). Sur le premierécran, il voit la phrase à codifier, les résultats de CART (phrases appariées etcodes associés) et enfin les réponses des autres membres du ménage à la mêmequestion. Sur un deuxième écran, le commis peut obtenir les réponses de lapersonne à des variables annexes. Le commis peut soit choisir un des résultatsde CART, soit inscrire un code basé sur un manuel de nomenclature ou référer lacodification à un expert. Chaque fois que le commis inscrit un code, le systèmeimprime au bas de l'écran l'énoncé officiel du manuel de nomenclature; le commisdoit lire et confirmer le code. Le résultat de la codification est inscrit dansla table du contrôle qualitatif des résultats du commis.L'ordinateur transfère électroniquement les phrases référées à l'expert deservice. L'expert a accès, sur écran, à plus d'information tel les pointages deCART et l'information annexe pour tous les autres membres du ménage. De plus, ilpeut consulter des manuels de référence plus spécialisés.3.6. Table du contrôle qualitatif des résultats de CARTLe contrôle qualitatif pour la codification automatique a les mêmes objectifs quecelui pour la codification traditionnelle. Cependant il diffère en étendue carbeaucoup plus d'information sur l'opération est disponible et cette informationpeut facilement être modifiée.Chaque aspect du contrôle qualitatif exploite la nature systématique de lacodification automatique car une phrase reçoit toujours le même code s'il n'y apas d'intervention humaine. Donc l'examen d'une seule occurrence d'une phrasesuffit pour établir sa qualité. Les conclusions sur la qualité s'étendent àtoutes les répliques de cette phrase.La table du contrôle qualitatif contient une entrée pour chaque couple phrasecode.Un indicateur de statut est 'associé au couple. Sa valeur est 1 pour uncouple approuvé a priori, 2 pour un couple vérifié et valide, 3 pour un couplevérifié et invalide et 4 pour un couple non vérifié. Durant la production, chaquenouveau couple phrase-code codifié automatiquement est ajouté à la table tandisque la fréquence d'occurrence est augmentée pour chaque couple répété.Puisque les entrées initiales du fichier de référence ont fait l'objet de testsintensifs, tous les couples appartenant à ce fichier sont inscrits dans la tabledu contrôle qualitatif avec le statut approuvé a priori et ils ne sont pasvérifiés. Ceci rend plus efficace le contrôle qualitatif.Les autres couples sont échantillonnés sur une base de priorité. Dès que lecouple phrase-code a une fréquence de trois ou plus, une des répliques estsélectionnée et regroupée avec d'autres couples par lot de 200 pour être codifiépar un commis de première ligne.Le système compare le code assigné par CART avec celui fourni par le commis. Siles codes correspondent, le couple est dit valide. Sinon, la codification estsoumise à un autre commis de première ligne. Si le nouveau code correspond àcelui de CART, alors le couple esc jugé valide. S'il correspond à celui du94 INSEE'Méthodes n° 56-57-58

PANbIlFsFigure 3: exemple d'un premier écran - codification par commisrarnEiMENT DE LA POPULATION DE 1. 91/CODAGE AUtOZ,f1Sre•mmAN-u AL3 CODAGE MANUEL • PRLNCIPAL DOMAINE D'ÉTUDES 2:00700.0Réponse écrite â coderRENAISSANCE ARCHI I RCTUREPhrases retournées par AL I RARCHITECTUREARCHITECTURE D'ARTBOAT ARCH I I ECTUR_EID: 35016207 141 1 29Données pour la mérite question de chaque membre du ménageCases cochées"lYpc CodeCodes (S)élect.267048308Persar.Réponses écritesEnter-?F1 PF2 PF3 —PF4 PF5 PF6 PF7—PF8---PF9--PF10--PF11—PF12.-AIDE HAUT BAS «« >>» PLUS +HAUT +BAS REFER VAUD COMET FINFigure 4: exemple d'un deuxième écran - codification par commis• • yr e.g.• vl .11" on* *IwoMiviFS3 PRINCIPAL DOMAINE D'ÉTUDES 12C003.0Nombre d'annéesÉtudes secondaires primaires : 12Études universitaire : 4Autres études : AUCUNEScolarité depuis les neuf dentiers mois : NONDiplôme : =SEC UNSUPBA BACCALA MAITR1SIndustrie : 8531 UNIVERSITY TEACHINGOccupation ou activités importantes : 2711 UNIVERSITY TEACHERSPrincipal domaine d'études : RENAISSANCE ARŒnTEcruRELien avec personne 1 : PERSONNE 1Date de naissance : 3001/1927Sem : MID: 35016207 141 1 29Enter-PF1—PF2—PF3 PF4-- PF5 PF6 PF7 —PF8---PF9 –PFIO PF11 PF12—AIDE » FINConférences spéciales 95

premier commis, le couple est jugé invalide. Finalement, s'il ne correspond pasà aucun des deux codes, le cas est référé à un expert.Ce type de contrôle qualitatif identifie les différences encre le code établi parun commis et celui de CART et aide à repérer les problèmes opérationnels dans lesdeux types de codification. Le responsable de la variable qui est aussi unspécialiste dans la nomenclature doit éventuellement faire une revue desrésultats et établir ce qui est vraiment en erreur. Celui-ci aura la possibilitéde rectifier les erreurs systématiques.En plus de faciliter l'échantillonnage pour le contrôle qualitatif, la table ducontrôle qualitatif sert à calculer régulièrement des taux d'erreur. Leresponsable de la variable peut aussi scruter les couples phrase-code dont lesfréquences sont inférieures à 3 et établir la qualité de la codification.3.7 Table du contrôle qualitatif des résultats du commisLa table du contrôle qualitatif pour les résultats de la codification par lescommis contient une entrée pour chaque phrase candidate traitée. Cette phrase estaccompagnée du code assigné par le commis, un numéro de lot, du numéro du commiset du code final lorsque la phrase a subit un contrôle qualitatif.L'objectif du contrôle qualitatif est de déterminer la performance des commis,d'identifier les zones à problèmes, de s'assurer que les objectifs de qualitésont atteints, de donner une rétroaction à l'opération ec de prévenir larépétition d'erreur:La méthode de contrôle qualitatif utilisé est la méthode d'échantillonnage parattribut avec une rectification à 100,e des lots rejetés. En pratique 5 phrasesd'un lot de 200 sont vérifiées par un commis de première ligne. Comme pour lecontrôle qualitatif des résultats de CART, il n'y a pas de vérificationsupplémentaire lorsque les codes correspondent. Dans le cas contraire, on faitappel à un deuxième commis de preMière ligne et finalement à un expert pourdéterminer le code exact.Un lot est rejeté et recodifié dès qu'une phrase a un code en erreur.Le code qui apparaît sur le fichier du recensement est le code établi lors de lavérification ou le code original s'il n'a pas été vérifié. Des taux d'erreur sontrégulièrement produits. Le responsable de la variable a accès à toutel'information de la table et peut apporter les correctifs qui s'imposent.3.8 Rectification des erreurs systématiquesLes deux tables du contrôle qualitatif contiennent l'histoire de la codificationautomatique et de la codification par des commis. Durant son analyse del'information de ces tables, le responsable de la variable identifie les erreurs(de préférence systématiques) qui doivent être corrigées. L'analyse peut menerà une .modification de la nomenclature pour refléter une nouvelle réalité.L'application du recensement renferme un module de rectification qui est utiliséà la fin de la production immédiatement avant l'intégration des résultats à labase de données principale du recensement.96 INSEE Méthodes n° 56-57-58

Le module de rectification des erreurs systématiques agit globalement sur lescouples phrase-code en erreur et étend son action sur toutes les répliques ducouple. Des rapports détaillés des actions prises sont produits afin de biencontrôler cette opération.3.9 Résultats et observations3.9.1 Volume de codification et taux d'appariementPour la présentation des résultats, les libellés des 10 questions soumises à lacodification automatique ont été regroupés sous 7 variables qui employaient desfichiers de référence et des stratégies de normalisation distincts. Le Tableau1 présence ces variables et des statistiques opérationnelles.Tableau 1: Codification Automatique - variables et statistiquesVariable Traités Appariéspar CARTTauxCARTCodifiéspar commisOrigine ethnique 1,160,491 1,062,015 91.51% 98,476Langage 5,998,021 5,741,294 95.72% 256,727Indien(ne) inscrit(e) 236,501 169,675 71.74% 66,826Lieu de résidence - 5ans (ville/muni.)Principal domained'étudesProvince - Pays -Territoire1,042,951 793,425 76.08% 249,5261,905,959 1,485,196 77.92% 420,763880,077 821,510 93.35% 58,576Religion 4,859,569 4,752,021 97.79% 107,548Total 16,083,569 14,825,136 92.18% 1,258,433Des 16 millions de libellés soumis à la codification automatique 14.8 millionsou 92.18% ont été chiffrés par CART (taux d'appariement). Les autres 1.2 millionsont été résolus par une codification assistée par ordinateur.Les taux d'appariement sont regroupés en deux groupes principaux; dansl'intervalle 71% à 78 % et dans l'intervalle 91% à 98%. La différence des tauxpar variable s'explique par le volume traité, la variation des réponses, lalongueur des libellés, l'utilisation d'abréviation par le répondant, lechangement dans les frontières dû à l'effondrement du bloc communiste et le faitque certains libellés (par exemple: un nom de municipalité qui est associé àplusieurs codes) étaient délibérément envoyés à la codification par commis oùl'information annexe pouvait être utilisée pour établir le code exact.La question sur les Indiens inscrits était nouvelle et il était difficile deprévoir les réponses surtout parce que plusieurs noms ont récemment subi denombreux changements. La variable Lieu de résidence, il y a cinq ans évitaitl'utilisation des noms de lieu répétés en ne les incluant pas dans le fichier deConférences spéciales 97

éférence. Les noms de lieu répétés incluent les lieux géographiques qui ont lemême nom à l'intérieur d'une province ou, si la province n'est pas identifiée,le même nom dans plus d'une province. De plus, on excluait un nom comme "Québec"puisque celui-ci pouvait référer à la province ou à la ville. La variablePrincipal domaine d'études avait un nombre de réponses très variées, unenomenclature diverse et l'utilisation d'abréviations ou de libellés très longs.Le problème avec les longs libellés est qu'une erreur dans seulement un des motspeut empêcher un appariement direct, seul appariement permis pour cette variable.De plus, il n'était pas possible de répertorier toutes les variationsd'épellation et les abréviations de ces libellés. Finalement, les longs libelléssont plus sujets à des erreurs à l'opération de saisie des libellés.3.9.2 Mise à jour des fichiers de référenceDurant la production, il y a eu 5 mises à jour des fichiers de référence. Onestime qu'elles ont augmenté le taux d'appariement de 2 points de pourcentage,ou alternativement, qu'elles ont réduit le volume de codification par des commisd'environ 25%. Dans certains cas des phrases ont été enlevées car elles étaientambiguës et elles généraient des erreurs.3.9.3 Analyse de la Table du contrôle qualitatif des résultats de CARTTel que mentionné précédemment, tous les couples uniques phrase-code avaient undes statuts suivants: approuvé a priori, vérifié et valide, vérifié et invalide,non vérifié.Le terme "invalide" indique ici qu'il y a différence entre le code de CART eccelui établi au contrôle qualitatif. Les différences proviennent parfois de codeserronés dans le fichier de référence, de phrases trop normalisées, de commis quin'avaient pas les instructions les plus récentes ou qui ont fait des erreurs dejugement ou d'inattention. Une autre cause de différence est la possibilité quele libellé est associé à plusieurs codes. Donc ce que nous mesurons ici est unedifférence brute qui doit être analysée avant d'initier une rectification. C'estaussi la fonction de l'analyste de repérer les quelques erreurs qui ont étémanquées au contrôle qualitatif.Le tableau 2 reflète le volume des phrases selon les différents statuts. Plus de87% des phrases codifiées par CART étaient approuvées a priori. Moins de 1% desphrases ont été identifiées comme ayant un code invalide.Tableau 2: Résultat du contrôle qualitatif - toutes les variablesSTATUT,,,,,LlaL,UNIQUES,....leJLOL.,■roc/1(%)11,1,..e.,,,,,te,,,J.,(%) total'a pprouvé a priori 14,787 12,898,773 87.01%Térifié et invalide 2,705 89,743 0.61% 0.018%Térifié et valide 34,499 1,735,931 11.71% 0.233%ion vérifié 82,128 100,689 0.67%rotal codifié par CART 14,825,136 100.0%98 INSEE Méthodes n° 56-57-58

3.9.4 Ressources pour le contrôle qualitatifLes ressources planifiées pour le contrôle qualitatif visaient à vérifier 3.0%des libellés codifiés par CART et 10.0% des libellés codifiés par les commis. Cedernier pourcentage était réparti comme suit: 2.5% pour l'échantillon et 7.5%pour recodifier les lots rejetés.Les taux finaux furent de 0.251% (tableau 2: [2,705 + 34,499]/ 14,825,136) pourla codification automatique et de 10.02% pour la codification par les commis.Le taux de 0.251% est attribuable à la haute fréquence d'occurrences des couplesphrase-code approuvés a priori et au fait que chaque couple unique étaitsélectionné et vérifié seulement une fois. Cette stratégie de vérification estimpossible dans une opération traditionnelle de contrôle qualitatif. Ce tauxindique donc que l'exploitation de toute l'information produite par les systèmespeut augmenter l'efficacité de la vérification sans compromettre la qualité.Le tableau 3 illustre, par variable, la fréquence moyenne d'occurrences descouples uniques phrase-code codifié par CART.La fréquence moyenne des couples phrase-code approuvés a priori est de 872. Lafréquence la plus intéressante est celle des couples vérifiés et invalides avecune moyenne de 33. Ceci signifie que la correction d'un de ces couples corrigeen moyenne 33 erreurs.Tableau 3: Fréquence moyenne des couples phrase-code par variable etstatutVARIABLE / STATUTAPPROUVÉA PRIORIVÉRIFIÉ ETINVALIDEVÉRIFIÉET VALIDENONVÉRIFIÉOrigine ethnique 528 12 27 1Langage 1,906 167 128 1Indien inscrit 103 13 37 1Lieu de résidence ily a 5 ans (villes)Principal domained'étudesProvince - Pays -Territoire- 19 44 1180 16 29 1588 393 38 1Religion 4,252 25 105 1Toutes les variables 872 33 50 1Pour le prochain recensement, le but sera d'approuver a priori le plus de couplespossibles afin de minimiser les ressources consacrées au contrôle qualitatif. Lesressources dégagées pourront être utilisées pour mieux analyser les deux tablesdu contrôle qualitatif.Conférences spéciales 99

3.9.5 Rectification des erreurs systématiquesEnviron 94,000 codes furent rectifiés par le module de rectification. Les codesprovenaient des deux types de codification (automatique et par commis). Laplupart des rectifications ont amélioré la qualité. Pour les variables OrigineEthnique, Langage et Province-Pays-Territoire, quelques codes furent changés pourrefléter la nouvelle réalité mondiale, réalité qui changea beaucoup entre laproduction du questionnaire et la fin du traitement des données du recensement.Notre estimation de la qualité finale pour les deux types de codification est untaux combiné d'erreur inférieur à 1%; la codification par les commis est lasource principale des erreurs. Cependant le taux atteint est remarquablement baspuisque dans les recensements précédents le taux d'erreur se situait dansl'intervalle de 4% à 8% dépendant de la question.3.9.6 Coût de l'opération de codificationLe coût de l'opération de codification est estimé à 2.5 millions de dollars soit60% de moins que si la codification avait été faite par des commis uniquement.Le coût ne comprend pas le coût de développement de CART et le coûtsupplémentaire de saisie des libellés (0.9 million de dollars) mais il reflèteles coûts associés au développement des fichiers de référence, des stratégies denormalisation, et au développement des systèmes pour la codification assistée parordinateur, le contrôle qualitatif et la rectification des erreurs. La réductionde coût provient de la réduction du nombre de commis de 600 à 25 et de leurefficacité accrue.4. CONCLUSIONL'utilisation de la codification automatique pour le recensement de 1991 a étéun franc succès sur lequel nous voulons capitaliser pour le recensement de 1996.Nos intentions pour le recensement de 1996 sont les suivantes:Le logiciel CART sera utilisé de nouveau mais il subira certaines modificationsafin d'augmenter sa polyvalence. Il aura la capacité - de spécifier l'ordre desfonctions lors de la normalisation des libellés; de conserver l'ordre originaldes mots lors de la création de la clé d'expression condensée utilisée parl'appariement direct; et de calculer le poids des mots et les pointages suivantun choix de méthodes.Les applications de codification de 1991 seront légèrement modifiées pour lesrendre plus performantes. Les fichiers de référence et stratégies denormalisation seront mis à jour. Un nouveau module localisé au début del'application est à l'étude; il décidera si un libellé doit être soumis à lacodification automatique, être envoyé directement à la codification par lescommis ou recevoir un code intérimaire indiquant qu'il n'y pas suffisammentd'information pour chiffrer. Finalement le manuel de nomenclature sera disponibleà l'écran afin de faciliter la codification par les commis.Deux nouvelles questions seront codifiées en 1996: Relation avec la personne de100 INSEE Méthodes n° 56-57-58

éférence et Lieu de travail (codifié au niveau du pété de maisons). Pour cesquestions, l'application de codification sera plus complexe et fera appel à CARIet à d'autres logiciels d'appariement de dossiers (voir Tourigny, Moloney, Miller(1993).Le défi pour le recensement de 2001 sera de codifier de façon automatique lesdeux dernières questions ayant des libellés en clair, soit l'Activité économiquede l'entreprise et la Profession. Ironiquement, l'intention première lors dudéveloppement de CART était de codifier ces deux questions.BIBLIOGRAPHIECiok R. (1993). "The results of automated coding in the 1991 Canadien Census ofPopulation". Document présenté à "1993 Annuel Research Conference", conférenceorganisée par le Bureau du Recensement des Écacs-Unis.Hellerman E. (1982). "Overview of the Hellerman 1:401 Coding System". Documentinterne. Bureau du recensement des Etats-Unis.Knaus R. (1981). "Pattern-based Semantic Decision Making". Texte du livre"Empirical Semantics", édité par Rieger B., Bochum, Allemagne de l'Ouest.Tourigny J., Moloney J., Miller D. (1983). "The 1991 Canadien Census ofPopulation exverience with automated coding". Document présenté à la session detravail sur la vérification statistique des données. Session organisée par laConférence des statisticiens européens. Stockholm, Suède.Wenzowski, M.J. (1988). "ACTR - Un système généralisé de codage automatique".Techniques d'enquête, vol 14, pp. 317-326.Conférences spéciales 101

ANNEXE ANORMALISATION DES PHRASESLe logiciel de codification automatique CART contient un module qui permet lanormalisation des phrases du fichier de référence et du fichier d'enquête. Ils'agit d'une suite fixe de 14 fonctions qui, suivant l'application decodification, peuvent ou non être utilisées. Les quatre premières fonctionsidentifient les mots de la phrase; les 10 autres fonctions normalisent ces mots.Pour chaque fonction utilisée, le responsable de la variable doit fournir uneliste de caractères valides, de mots, de mots de remplacement ou de suffixes.Traitement de texte:La phrase est traitée comme une chaîne ininterrompue de caractères afin depouvoir éventuellement identifier des mots distincts:Fonction 1: clauses d'exclusion - pour les phrases du fichier de référence, letexte qui indique une clause d'exclusion (par exemple,"commis (sauf dansl'armée)") doit être exclu car un répondant ne s'exprime pas de cette façon. Lerésultat sera des phrases normalisées identiques dans le fichier de référence quiconduiront à des appariements "gagnants multiples". CARI n'assignera pas un codemais sur ces appariements sera acheminé à un commis qui devra décider du codeapproprié.Fonction 2: élimination de caractère - permet d'éliminer les caractères inutiles,tels les apostrophes dans la langue anglaise, qui seraient interprétés comme desindicateurs du début ou de la fin d'un mot par la fonction 4.Fonction 3: remplacement de caractères - permet de remplacer une abréviation parun ou des mots sinon le sens de l'abréviation sera détruit par la fonction 4. Parexemple télévision remplace "T.V."Fonction 4: bris du texte en mots - si un caractère n'est pas dans la liste descaractères valides pour un mot, il indique le début ou la fin d'un mot; parexemple si seulement les chiffres, les lettres et le trait d'union sont valides,les deux phrases suivantes seront divisées en 2 mots "T.V." = T V,"anglais/français" — anglais français, ec la phrase "Eleccrician's Apprencice"en 3 mots.Traitement des motsLa phrase est traitée comme une collection de mots. Par conséquent, les fonctionssuivantes s'appliquent à chacun des mots pris individuellement.Fonction 5: mots à trait d'union - permet de préserver en un mot deux mots quiensemble ont un sens spécifique par exemple "post-secondaire". Si le mot à traitd'union n'est pas dans la liste, il est brisé en deux mots; autrement il estremplacé par un nouveau mot.102 INSEE Méthodes n° 56-57-58

Fonction 6: caractères alphanumériques non valides - si un mot est formé d'unechaine de caractères qui le rend inintelligible, ce mot est supprimé sans autreconsidération. Dans certaines applications, on utilise cette fonction poursupprimer des mots qui renferment des caractères numériques.Fonction 7: mots de remplacement - cette fonction agit de la même façon que lafonction 3; la différence majeure est que la recherche est limitée à des motsentiers et non à une partie de mot. Cette fonction fait en sorte que deux motssynonymes soient reconnus comme pareils pour les fins d'appariement. Cettefonction peut aussi être utile pour corriger les fautes d'orthographe courantes.Fonction 8: mots- doubles - si deux mots, lorsque pris ensemble dans un certainordre, ont un sens particulier, cette fonction permet de les remplacer par unseul mot. Par exemple les deux mots "radio" "active" sont remplacés par"radioactive" et "garde" "malade" par "infirmier". Cette fonction peut résoudredes incohérences dans l'orthographe et contrer une modification de l'ordre desmots qui aurait lieu lors de la construction de la "clé d'expression condensée"pour un appariement direct.Fonction 9: mots sans importance - un mot sans importance, tel un article, unpronom, ne contribue pas au contenu sémantique de la phrase; il peut êtresupprimé sans autre considération.Fonction 10: mors racine - les fonctions 11, 12 et 13 peuvent faire en sorte quedeux mots sémantiquement différents peuvent être réduits à la même racine. Cettefonction examine les- mots pour y déceler des mots racines. S'il en trouve un, lemot entier est remplacé par un mot substitut ec les trois fonctions suivantes nesont pas activées.Fonction 11: remplacement de suffixes - un mot est scruté de droite à gauche poury trouver la plus longue forme de suffixe se trouvant dans la liste. Si un telsuffixe est repéré, il est remplacé par le substitut prévu. Par exemple, lamarque du pluriel peut être éliminé 'de telle manière que le suffixe est reconnupar la fonction 12. En anglais on peut remplacer "ies" par "y".Fonction 12: suffixes - habituellement un suffixe ne change pas le contenusémantique d'un mot. Cette fonction scrute un mot de droite à gauche pour ytrouver la plus longue forme de suffixe se trouvant dans une liste, de tellesorte qu'une fois le suffixe enlevé, le mot contienne au moins cinq caractères.Si une forme définie de suffixe est repéré, elle est supprimée. Des exemples desuffixes sont able, aliste, icienne, trice.Fonction 13: consonnes ou voyelles doubles - l'élimination des consonnes ouvoyelles doubles ne change habituellement pas le contenu sémantique du mot. Cetteélimination peut annuler des erreurs d'orthographe ou de saisie de données.Fonction 14: mots répétés - seulement une occurrence de chaque mot normalisé estconservé dans la phrase normalisée.Conférences spéciales 103

ANNEXE BQuestions soumises à la codification automatiquePremière langue appriseQuelle est la langue que cette personne a apprise en premier lieu à la maisondans son enfance eu qu'elle comprend encore?Réponse: si la langue esc autre que l'anglais ou le français, la personne précisecelle-ci.Note Cette question apparaît sur le questionnaire abrégé et complet.Langue parlée à la maisonQuelle langue cette personne parle-t-elle le plus souvent à la maison?Réponse: si la langue esc autre que l'anglais ou le français, la personne précisecelle-ci.Langues non-officiellesQuelle(s) langue(s); autre(s) que l'anglais ou le français, cette personnetonnait-elle assez bien pour soutenir une conversation?Réponse: la personne peut préciser jusqu'à trois langues.Lieu de naissanceOù cette personne est-elle née?Réponse: si la personne est née dans un pays autre que les 6 pays proposés, elledoit préciser ce pays.Origine ethnique - ancêtresÀ quel(s) groupe(s) echnique(s) ou culturel(s) les ancêtres de cette personneappartenaient-ils?Réponse: si la personne appartient à un groupe autre que les 15 groupes proposés,elle peut préciser jusqu'à deux autres groupes.Indien(ne) inscrit(e)Cette personne est-elle un(e) Indien(ne) inscrit(e) aux termes de la Loi sur lesIndiens du Canada?104 INSEE Méthodes n° 56-57-58

Réponse: si la case oui est coché, la personne précise la bande indienne oupremière nationReligionQuelle est la religion de cette personne?Réponse: la personne précise une seule confession ou une seule religion, ou cochela case "Aucune religion".Lieu de résidence, il Y a 1 anOù cette personne habitait-elle il y a 1 an, c'est-à-dire le 4 juin 1990?Réponse: si la personne n'habitait pas à une adresse dans la mêmeprovince/territoire, elle doit préciser soit l'autre province/territoire ou lenom d'un autre pays.Lieu de résidence. il v a cinq ansOù cette personne habitait-elle il y a 5 ans, c'est-à-dire le 4 juin 1986?Réponse: si la personne n'habitait pas à une adresse dans la même ville, elledoit préciser soit le nom de l'autre ville ou le nom d'un autre pays.Principal domaine d'étudesQuel était le principal domaine d'études ou de formation du plus haut grade,certificat ou diplôme de cette personne (sans compter les certificats d'étudessecondaires)?Réponse: la personne indique que le plus haut diplôme est un certificat d'étudessecondaires ou précise un principal domaine d'études ou de formation.Conférences spéciales 105

TARIF 1996LES PUBLICATIONSINSEEL'INFO ATION SUR L'INFOATIONINSEE A CTUALITES'INSEE ACTUALITÉS magazine' est un catalogue trimestriel desnouveautés de l'INSEE : publications, banques de données... ; ilest adressé à toute personne ou organisme désireux de suivrel'actualité de l'INSEE.Abonnement gratuit sur simple demande é :Insee - Direction généraleAbonnement è Insee Actualités - Timbre 1453318 bd A. Pinard - 75675 Paris cedex 14COURRIER DES STATISTIQUESQuatre fois par an cette revue interministérielle vous informe surl'ensemble des activités du système statistique public et sur l'évolutiondes outils et des méthodes.Abonnement 1 an (4 numéros)France : 135 FF - Etranger 169 FF - Étranger par avion : 234 FFBLOC-NOTES DE INSEE INFO SERVICEA la fois un répertoire et un guide de l'information économique.Le °thème du mois° fournit des repères sur un sujet d'actualité.Abonnement 1 an (11 numéros)France : 168 FF- Étranger: 210 FF -Étranger par avion : 330 FFSCRIBECOUne revue bibliographique reflet du fonds documentaire del'INSEE.Abonnement 1 an (6 numéros)France 657 FF - Étranger: 821 FF - Étranger par avion 892 FFLES PÉRIODIQUESLE BULLETIN MENSUEL DE STATISTIQUE10 000 séries mensuelles, trimestrielles et annuelles concernantl'ensemble de la vie économique, complétées par les séries rétrospectivesdes principaux indices et par le bilan démographique.Abonnement 1 an (12 numéros)France 346 FF Etranger r 433 FF - Étranger par avion 562 FFINSEE PREMIERELe "4 pages" qui, chaque semaine, présente les analyses et lescommentaires des experts de l'INSEE sur un thème de l'actualitééconomique et sociale.Abonnement (60 numéros)France 485 FF - Etranger: 606 FF - Étranger par avion r 770 FFECONOMIE ET STATISTIQUEChaque numéro est un recueil d'articles sur un grand thème dudébat social proposant des commentaires, des tableaux et desgraphiques ainsi qu'une bibliographie.Abonnement 1 an (10 numéros)France r 414 FF - Étranger 518 FF - Étranger par avion : 633 FFANNALES D'ECONOMIEET DE STATISTIQUECe trimestriel publie des travaux originaux de recherche théoriqueou appliquée dans les domaines de l'économie, de l'économétrieet de la statistique.Abonnement 1 an (4 numéros)France r 447 FF Etranger r 559 FF - Etranger par avion 600 FFPour les particuliersFrance : 162 FF - Étranger 202 FF - Étranger par avion 243 FFINSEE METHODESINSEE RESULTATSCette série présente les résultats détaillés des enquêtes et opérationsstatistiques menées par l'INSEE.Elle s'articule en 5 thèmes :Économie générale (20 numéros)France : 1 454 FF Etranger : 1 818 FF- Étranger par avion 2 075 FFDémographie Société (7 numéros)France 509 FF - Étranger : 636 FF - Étranger par avion : 726 FFConsommation - Modes de vie (15 numéros)France : 1 091 FF- Étranger : 1 364 FF Étranger par avion : 1 557 FFSystème productif (15 numéros)France 1 091 FF - Étranger : 1 364 FF - Étranger par avion 1 557 FFEmploi - Revenus (13 numéros)France : 945 FF -Étranger : 1 181 FF - Étranger par avion 1 344 FFEnsemble des 5 thèmes (70 numéros)France : 5 090 FF - Étranger : 6 363 FF- Étranger par avion : 7 259 FFLa méthodologie des travaux de l'INSEE et les modèles.Abonnement (15 numéros)France :1 091 FF - Etranger: 1 364 FF-Étranger par avion 1 557 FF

L'INSEE DANS VOTRE RÉGIONVOUS Y TROUVEREZ :® Salle de documentation en libreconsultationsi Bureau de vente des publicationsde l'INSEE21 Adresses des entrepriseset établissements (SIRENE).■ Accès au fonds documentaireet aux banques de données de l'INSEE.gA Travaux 1 la demande...LILLE41,AMIENS A 4,..,2,c4,, AENROUEN - REIMS NANCYPARIS A 5,15e„RENNES As DIJONNANTES ORLÉANS Ati.BESANÇON*ikPOITIERS CLERMONTAFERRANDLYONLIMOGESÀ. MONTPELLIERBORDEAUX A MARSEILLETOULOUSEAJACCIORGLE SERVICE INSEE 241112436 68 07 60 *• indices* informations• adresseset sur minitel 36.15 - 36.16 INSEE*2,23 FlotsALSACECité administrative,me de l'Hôpital Militaire,67084 STRASBOURG CEDEXTél. : 88 52 40 40AQUITAINE33, rue de Saget,33076 BORDEAUX CEDEXTél. : 57 95 05 00AUVERGNE3, place Charles de Gaulle, BP 120,63403 CHAMALIERES CEDEXTél. : 73 31 82 82BOURGOGNE2, rue Hoche, BP 1509,21035 DIJON CEDEXTél. : 80 40 67 48BRETAGNE"Le Colbert",36 place du Colombier,35082 RENNES CEDEXTél. : 99 29 33 66CENTRE43, avenue de Paris, BP 6719,45067 ORLÉANS CEDEX 2Tél. : 38 69 53 35CHAMPAGNE-ARDENNE1, nie de l'Arbalète,51079 REIMS CEDEXTél. : 26 48 61 00CORSEI. résidence Carda,me des Magnolias.BP 907,20700 AJACCIO CEDEX 9Tél. : 95 23 54 54FRANCHE-COMTÉImmeuble "Le Major".83, me de Dôle,BP 1997.25020 BESANCON CEDEXTél. : 81 41 61 61ILE-DE-FRANCEINSEE Info Service,accueil, librairie, consultation, travauxTour "Gamma A",195, rue de Bercy,75582 PARIS CEDEX 12Tél. (1) 41 17 66 11Direction Régionale7, rue Stephenson.Montigny-le-Bretonneux78188 ST-QUEVIIN-EN-YVELINES CEDEXTél. (I) 30 96 90 99LANGUEDOC-ROUSSILLON274, allée Henri II de Montmorency,"Lai Polygone",34064 MONTPELLIER CEDEX 2Tél. : 67 15 70 00LIMOUSINAdresse postale 29, rue Beyrand,87031 LIMOGES CEDEXAccueil : 50, avenue Garibaldi,87031 LIMOGES CEDEXTdl. : 55 45 20 07LORRAINE15, rue du Général Hulot. BP 3846,54029 NANCY CEDEXTél. : 83 91 85 85MIDI-PYRÉNÉES36. me des 36 ponts,31054 TOULOUSE CEDEXTêt.: 61 36 61 13NORD-PAS-DE-CALAIS130, avenue du Président .1.-F. Kennedy,BP 769, 59034 LILLE CEDEXTél. : 20 62 86 66SASSE-NORMANDIE93-95 rue de Géôle,14052 CAEN CEDEXTcL: 31 15 11 11HAUTE-NORMANDIE8, quai de la Bourse.76037 ROUEN CEDEXTél. : 35 52 49 I IPAYS DE LA LOIRE105, rue des Français Libres, BP 2189,44204 NANTES CEDEX 02Tél.: 40 41 75 75PICARDIErue Vincent Auriol,80040 AMIENS CEDEXTél. : 22 91 39 39POITOU-CHARENTES6 rue du Bois d'Amour, BP 55786020 POITIERS CEDEXTél. : 49 88 38 71PROVENCE-ALPES-CÔTE D'AZUR17 rue Menpenti,13387 MARSEILLE CEDEX 10Tél.: 91 17 57 57RHÔNE-ALPES165, rue Garibaldi, BP 3196,69401 LYON CEDEX 03.(Cité administrative de la Part-DieulTél. : 78 63 22 02EN OUTRE - MER :ANTILLES-GUYANEINSEE : Direction Inter-RégionaleTour Secid, 7ème étage,Place de la rénovation, BP 30097175 POINTE-A-PITRE CEDEXT81. : 19. 590 91 59 80GUADELOUPEINSEE : Service RégionalRue Paul Lacav6, BP 96,97102 BASSE-TERRETél. : 19. 590 81 42 50INSEE - DIRECTION GÉNÉRALE.Unité Communication ExterneTimbre 11501- 18, bd Adolphe-Pinard75675 Paris Cedex 14 - FRANCEGUYANEINSEE : Service Régional1, rue Maillard Dumesle, BP 6017,97306 CAYENNE CEDEXTél. : 19. 594 31 61 00INSEEINSTITUT NATI()NALDE LA STATIS'nousEr Des trumÉco,om■QuEsMARTINIQUEINSEE : Service Régional, Centre DelgresBoulevard de la Pointe des SablesLes Hauts de Dillon, HP 64197262 FORT DE FRANCE CEDEXTél. : 19. 596 60 73 60RÉUNIONINSEE : Direction Régionale,15, rue de l'Ecole, BP 13,97408 ST DENIS MESSAG CEDEX 9Tél. : 19. 262 48 39 21Tél. renseignements : (1) 41 17 66 11Tél. administration : (1) 41 17 50 50Fax : (I) 41 17 51 77

INSEE MÉTHODESN°56-57-58ACTES DES JOURNÉESDE MÉTHODOLOGIESTATISTIQUE15 et 16 décembre 1993Complément(INSEE+^. Sil SL.1 >•••;OON.,.1OF IA STATISTIQUFFI MS FilÉCONov,Ce volume complète les communications des " Journéesde méthodologie statistique " qui se sont tenues à Parisles 15 et 16 décembre 1993 (publication d'août 1996).Les thèmes abordés sont l'analyse des données, lescorrections pour la non-réponse, les données de survie,le contrôle et la qualité des données et le traitement desséries temporelles.Les journées poursuivaient un double but :- présenter des travaux actuels réalisés à l'Insee à unlarge public ;- bénéficier du regard critique d'experts venus de l'étrangerqui, en retour, présentaient leurs travaux,ISSN 1142 - 3080ISBN 2.11-066379-0IMET056Août 1998 - Prix : 228 F (2 tomes)782110 6G3795

actes des journées de méthodologie statistique - Epsilon - Insee

Create successful ePaper yourself

Delete template?

Save as template?