UNIVERSIT DU QUBEC MONTRAL - Laboratoire d'études de la ...

CENTRE INTERUNIVERSITAIRE QUÉBÉCOIS DE 

STATISTIQUES SOCIALES 

Institut national de la recherche scientifique 

Université du Québec à Montréal 

Atelier 

Introduction à Stata 

par 

Nicholas Labelle 

Benoît-Paul Hébert 

Benoît Laplante 

Juin 2007

Table des matières 

1. Introduction..................................................................................................................... 1 

2. Initiation à Stata .............................................................................................................. 2 

2.1 Comprendre l’environnement de Stata 9 .................................................................. 2 

2.2 Préparation de Stata à une séance de travail ............................................................. 3 

2.3 Ouvrir une base de données ...................................................................................... 3 

2.4 Les fichiers lus par Stata........................................................................................... 3 

2.5 La syntaxe de base d’une instruction........................................................................ 4 

2.6 Un exemple : l’instruction –summarize–.................................................................. 5 

2.7 Poser des conditions à une instruction...................................................................... 5 

2.8 Pondération ............................................................................................................... 8 

2.9 Les programmes (do-files)........................................................................................ 9 

2.10 Commentaires ....................................................................................................... 10 

2.11 Conservation des données en mémoire................................................................. 11 

2.12 Création d’un fichier de sortie (log file) ............................................................... 11 

2.13 Utiliser le dictionnaire des variables..................................................................... 12 

3. Explorer les données..................................................................................................... 13 

3.1 Voir les données ...................................................................................................... 13 

3.2 Décrire les données................................................................................................. 13 

4. Manipulation des données I .......................................................................................... 15 

4.1 Création et transformation d’une variable .............................................................. 15 

4.2 Noms et descripteurs............................................................................................... 21 

4.3 Création de variables dichotomiques...................................................................... 22 

5. Tableaux de fréquence, mesures d’association et visualisation de données ................. 23 

5.1 Les tableaux de fréquence....................................................................................... 23 

5.2 Corrélations et autres mesures d’association .......................................................... 25 

5.3 Visualisation de données......................................................................................... 27 

6. Combiner des bases de données.................................................................................... 31 

6.1 Concaténation de bases de données ........................................................................ 31 

6.2 Fusion de bases de données .................................................................................... 33 

7. Manipulation des données II......................................................................................... 34 

7.1 Sélectionner des variables ou des observations ...................................................... 34 

7.2 Relier des observations ........................................................................................... 35 

7.3 Répéter des instructions .......................................................................................... 36 

7.4 Remodeler une base de données ............................................................................. 37 

8. Lire des bases de données brutes .................................................................................. 38 

8.1 Les fichiers dont les valeurs sont délimitées par des tabulations ou des virgules .. 39 

8.2 Les fichiers dont les valeurs sont délimitées par des espaces................................. 39 

8.3 Les fichiers en format fixe ...................................................................................... 40 

8.4 Un exemple en format fixe à partir d’un fichier SPSS ........................................... 40 

Annexe 1 – Exemple d’un fichier fixe à partir d’un fichier SPSS.................................... 42 

Annexe 2 – Exemple de fusion d’un fichier ..................................................................... 45 

BIBLIOGRAPHIE............................................................................................................ 46 

OUVRAGES D’INTRODUCTION À STATA................................................................. 46

1. Introduction 

Ce guide vise à aider les participants à l’atelier Introduction à Stata à examiner, préparer 

et manipuler d’importantes bases de données à l’aide du logiciel Stata. 

Ce document servira de support aux 4 séances d’atelier ayant lieu les vendredi 11 et 18 

janvier 2008, de 9h30 à 12h30 et de 14h à 17h. L’évolution du contenu suit 

rigoureusement le document en anglais Introduction to Stata préparé par Benoît-Paul 

Hébert (CIED / CÉETUM / CIQSS 1 ) pour un atelier du même genre à l’été 2003. 

StataCorp a mis la première version de Stata sur le marché en janvier 1985. Ce 

programme demeure depuis un puissant outil d’analyse. Sa capacité de gestion de gros 

fichiers de données, son niveau d’automatisation de même que sa fonction d’aide très 

évoluée constituent trois de ses principaux avantages. 

Il existe une infinité de sites et de documents traitant de Stata. Je vous en conseille deux 

plus particulièrement 

- Stata Tutorial de l’Université Princeton 

(http://www.princeton.edu/~erp/stata/main.html); 

- Le Guide d’économétrie appliquée pour Stata par Estelle Ouellet, août 2005 

(http://www.sceco.umontreal.ca/bibliotheque/guides/GuideEconometrieStata.pdf). 

Enfin, les fonctions Help\Search et Help\Stata Command sont indispensables pour les 

utilisateurs avancés. La fonction d’aide sera traitée plus loin. 

1 CIED, Centre interuniversitaire d’études démographiques; CEETUM, Centre d’études ethniques des 

universités montréalaises. L’école d’été du CIQSS succède à une école d’été mise sur pied à l’origine par 

des professeurs de l’INRS associés au CIED et un professeur du département de sociologie de l’Université 

de Montréal associé au CEETUM. 

1

2. Initiation à Stata 

2.1 Comprendre l’environnement de Stata 9 

L’environnement de Stata est constitué de fenêtres qui possèdent chacune leur propre 

fonction. 

1. La fenêtre Results (Ctrl+1) affiche les calculs de Stata, le plus souvent sous 

forme de tableaux ou de messages d’erreur. 

2. La fenêtre Viewer (Ctrl+3) sert principalement à visionner les fichiers d’aide et 

les fichiers .log. Les fichiers .log servent à conserver les résultats qui s’affichent 

dans la fenêtre Results. Vous apprendrez plus tard à les générer. 

3. La fenêtre Command (Ctrl+4) n’est qu’une ligne pour inscrire les instructions. Les 

touches Page Sup et Page Inf permettent d’afficher les lignes d’instructions 

soumises depuis le début de la session de travail. 

4. La fenêtre Review (Ctrl+5) conserve les lignes d’instructions soumises depuis le 

début de la session et permet les répéter sans avoir à les écrire de nouveau. 

5. La fenêtre Variables (Ctrl+6) affiche l’ensemble des variables contenues dans le 

fichier.dta qui se trouve en mémoire. Cliquer sur une variable la fait s’afficher 

automatiquement dans la fenêtre Command. 

6. La fenêtre Data Editor (Ctrl+7) affiche la matrice des données qui se trouve en 

mémoire, où toutes les variables placées horizontalement et toutes les observations 

le long de l’axe vertical. Elle permet de visualiser les données, de les modifier et 

aussi de les copier dans un chiffrier comme Excel, avec Ctrl+C et Ctrl+V, pour faire 

des tableaux plus facilement. Le Data Browser ne permet pas de modifier les 

données, mais seulement de les visionner. 

7. La fenêtre Do-file Editor (Ctrl+8) fait apparaître une page servant à créer et 

modifier un do-file, c’est-à-dire un fichier regroupant des instructions qui peuvent 

être exécutées en différé automatiquement. Vous apprendrez sous peu à écrire de 

tels fichiers. 

8. La fenêtre Graph affiche les graphiques générés par Stata. 

Les fenêtres Command et Results sont toujours à l’écran alors que les autres peuvent être 

ouvertes ou fermées au besoin. 

2

2.2 Préparation de Stata à une séance de travail 

Au démarrage de Stata, deux fenêtres s’affichent : Stata Results et Stata Command. 

Au début de chaque séance, Stata fixe la taille de la mémoire qu’il utilise; par défaut, 

cette taille est de 1 000 kilooctets, ce qui est très peu. Au début de chaque séance, il faut 

déclarer la taille de la mémoire que l’on veut permettre à Stata d’utiliser. Ceci se fait au 

moyen de l’instruction set mem : 

set mem 3000 

Ici, on fixe la mémoire à 3 000 k, ce qui est toujours peu. Pour fixer la mémoire à 300 

mégaoctets, par exemple, on écrit : 

set mem 300m 

Au début de chaque programme, il faut également songer à vider la mémoire si le 

programme prévoit la lecture de nouvelles données. Cette opération doit être faite avant 

de fixer la taille de la mémoire. Au début d’un programme, on trouve donc couramment 

deux instructions comme celles qui suivent : 

clear 

set mem 300m 

2.3 Ouvrir une base de données 

Pour ouvrir une base de données Stata (généralement, un fichier dont l’extension est 

.dta), il suffit : 

- de sélectionner File/Open (ou Ctrl+O); 

- d’ouvrir le dossier où se trouve le fichier Stata, soit sur un disque compact, un 

réseau ou sur le disque dur; 

- d’aller cliquer sur le fichier pertinent, ici 2001famille24.dta 

Vous devriez voir apparaître dans la fenêtre Results quelque chose comme: 

use "C:\data\2001famille24.dta", clear 

Autrement dit, c’est la ligne de instruction Stata qu’il faudrait écrire manuellement pour 

accomplir cette action. 

use "[path\]filename”, [clear] 

Par exemple, use "C:\Program Files\Stata9\auto.dta", clear. 

Le chemin doit être fourni seulement si la base de données n’est pas dans le répertoire de 

travail. 

Pour changer le répertoire de travail, il suffit d’inscrire cd "path\". Par exemple, cd 

c:\data. 

L’option clear nettoie la mémoire avant d’ouvrir le fichier et l’extension .dta est par 

défaut. 

2.4 Les fichiers lus par Stata 

Un point et une extension de généralement 3 lettres indiquant au système d’exploitation 

quel type de programme ouvrir pour la lecture suivent toujours le nom d’un fichier. 

3

Par exemple, .doc désigne un fichier Word et .xls, un fichier Excel. 

Pour Stata, on compte diverses extensions : 

.ado Un programme écrit dans le langage de programmation de Stata. On peut 

programmer une nouvelle instruction en utilisant ce langage et conserver le 

programme dans un fichier portant cette extension. La plupart des instructions 

de Stata sont en fait des programmes conservés dans des fichiers qui portent 

l’extension .ado 

.do Un fichier .do contient des lignes d’instructions les unes à la suite des autres 

qu’on peut ensuite exécuter à l’aide d’un seul clic. 

.dta Le format des bases de données. 

.gph Un fichier sauvegardant un graphique de Stata 

.log Un fichier .log sert à conserver ce qui défile dans la fenêtre Results. 

.smcl Un fichier Stata Markup and Control Language paraît mieux graphiquement 

lorsqu’il est lu par le Stata Viewer. 

Les fichiers .ado et .smcl sont des fichiers de texte; ils peuvent être lus, et même 

édités, avec un éditeur de texte comme l’éditeur de Stata ou ConTEXT. On déconseille 

habituellement de les modifier avec un traitement de texte comme Word. 

2.5 La syntaxe de base d’une instruction 

command [varlist] [if exp] [in range] [wghtype=wghtvar] [, 

options] 

Nous donnerons des exemples plus tard, mais nous pouvons pour l’instant éclaircir 

quelques points. 

- Les éléments entre crochets sont optionnels; 

- command est le nom ou l’abréviation de l’instruction. Par exemple, nous verrons 

plus tard l’instruction summarize; 

- varlist est une liste de variables séparées par une espace; 

- if exp sert à inscrire une liste de conditions où exp indique les conditions 

logiques à satisfaire. Par exemple, if var1

2.6 Un exemple : l’instruction –summarize– 

La fonction summarize permet d’obtenir de l’information sur des variables continues. 

summarize [varlist] [weight] [if exp] [in range] [, 

[detail|meanonly] format] 

Ici, les lettres « s » et « u » sont soulignées. Tant que l’instruction contient ces deux 

lettres, Stata la comprendra. Ainsi, summar équivaut à sum qui équivaut à su. 

Par exemple, on pourrait analyser le revenu total de la famille de recensement (TOTALC): 

sum TOTALC 

Variable | Obs Mean Std. Dev. Min Max 

-------------+-------------------------------------------------------- 

TOTALC | 871 69841.61 478185.6 0 9999999 

On peut aussi inscrire une suite de variables: 

sum TOTALC WAGESC SELFIC CHDBNC 


-------------+-------------------------------------------------------- 

TOTALC | 871 69841.61 478185.6 0 9999999 

WAGESC | 871 55980.01 478808.1 0 9999999 

SELFIC | 871 25730.16 479011.6 -22614 9999999 

ou même mettre des conditions: 

sum TOTALC if CFSTRUC==1 & NUCHILD>=2 & TOTALC

L’opérateur logique « et » ( & ) sert entre autres à établir des bornes. Par exemple : 

sum TOTALC if CFSIZE>=3 & CFSIZE=3 & CFSIZE 

logarithme naturel de x log(x) Σ x sum(x) 

plus petit ou égal = 

Par exemple (Hébert, 2003, p. 19), 

a 

a > b a est supérieur à b 

a >= b a est supérieur ou égal à b 

a

On peut aussi utiliser les opérateurs logiques « et » ( & ) et « ou » ( | ) (Hébert, 2003, p. 

19). 

if a >=b & c f) Si a n’est pas égal au point (qui 

représente une valeur manquante) ou 

[si c est égal à d et en plus e est 

strictement supérieur à f ] 

Pour avoir l’âge moyen de chaque province, il faudrait exécuter l’instruction summarize 

pour chacune d’entre elle. Stata offre un certain nombre d’instructions spéciales, les 

préfixes, qui modifient l’action d’autres instructions. Deux de ces préfixes permettent 

d’exécuter une instruction en fonction des valeurs d’une autre variable. 

by varlist [, sort] : command 

bysort varlist : command 

Par exemple, pour avoir l’âge moyen pour chacune des provinces, il faudrait écrire : 

bysort pvreg25 : sum ecage26 if ecage26 pvreg25 = 10 


-------------+-------------------------------------------------------- 

ecage26 | 2419 44.65854 17.36658 16 80 

----------------------------------------------------------------------- 

-> pvreg25 = 11 


-------------+-------------------------------------------------------- 

ecage26 | 1588 44.60013 17.72166 16 80 

----------------------------------------------------------------------- 

-> pvreg25 = 12 


-------------+-------------------------------------------------------- 

ecage26 | 3787 46.67494 18.11865 16 80 

[ETC…] 

Les instructions sort et gsort classent les observations en ordre croissant selon les 

valeurs d’une ou plusieurs variables. L’instruction gsort permet de les classer en ordre 

décroissant si le signe – précède la variable de l’instruction gsort. 

sort varlist 

gsort [-] varname1 [[-] varname] 

Le point ( . ), qui représente les valeurs manquantes numériques, est placé en dernier dans 

les variables numériques; la chaîne vide, qui représente la valeur manquante 

alphanumérique, est placée en premier pour les variables alphanumériques — aussi 

nommées chaînes de caractères (string variable). 

7

2.8 Pondération 

L’Ontario est plus peuplée que l’Île-du-Prince-Édouard. Par ailleurs, la précision d’un 

estimé, par exemple l’erreur-type d’une moyenne, varie en raison inverse du carré du 

nombre des unités à partir de laquelle on calcule cet estimé. Il s’ensuit qu’augmenter un 

peu la taille d’un petit échantillon augmente beaucoup la précision des estimés qu’il sert à 

calculer alors qu’augmenter, même de beaucoup, la taille d’un échantillon déjà grand 

n’augmente que peu la précision des estimés qu’il sert à calculer. 

Pour cette raison, lorsqu’on réalise un sondage au Canada, il est habituel de construire 

l’échantillon en attribuant proportionnellement moins de répondants aux provinces les 

plus peuplées et proportionnellement plus de répondants aux provinces les moins 

peuplées. Ceci permet de calculer des estimés qui ont une précision raisonnable même 

pour l’Île-du-Prince-Édouard sans que cette forme de péréquation ne diminue beaucoup 

la précision des estimés calculés pour l’Ontario. 

Cela dit, pour calculer les estimés eux-mêmes — c.-à-d. la moyenne elle-même plutôt 

que son erreur-type—, et surtout à l’échelle du Canada tout entier, il faut que les 

informations recueillies auprès des individus comptent en fonction de leur importance 

dans la population et non pas en fonction de leur importance dans l’échantillon. On résout 

ce problème en associant à chaque individu une valeur, que l’on nomme son « poids » ou 

son « coefficient de pondération », qui représente l’importance de cet individu dans la 

population et dont on se sert pour calculer les estimés. 

Stata permet d’utiliser différents type de poids, dont certains correspondent à des types de 

données qu’on rencontre peu dans la recherche en sciences sociales. La forme de poids la 

plus courante en sciences sociales est le poids d’échantillonnage, que nous venons de 

décrire. Stata connaît ces poids sous le nom de « probability weights »; on les désigne au 

moyen de l’option pweights ou de son abréviation pw, qui sont toujours placées entre 

crochets. 

Les enquêtes de Statistique Canada utilisent toutes des plans de sondage complexes qui 

exigent que l’on utilise des poids pour obtenir des estimés qui décrivent correctement la 

population. L’usage de tels plans de sondage exige également que l’on utilise une 

approche spéciale pour calculer les erreurs-types des estimés. Stata permet d’utiliser 

différentes approches pour calculer des erreurs-types correctes lorsqu’on utilise des 

données obtenues au moyen d’un plan de sondage complexe. Règle générale, ceci se fait 

en décrivant les caractéristiques du plan de sondage au moyen de l’instruction svyset 

puis en plaçant le préfixe svy devant les instructions de Stata qui permettent de calculer 

des estimés simples, comme des moyennes et des proportions, ou plus avancées, comme 

des coefficients de régression. 

L’usage des poids et des approches qui permettent de calculer correctement les erreurstypes 

dépasse le cadre de cet atelier qui est une introduction au logiciel et non un cours de 

statistique ou de méthodes quantitatives. Pour cette raison, il est important de comprendre 

que les instructions que l’on voit dans cet atelier permettent d’examiner les données, de 

les transformer et de les préparer pour des analyses, mais ne permettent pas de réaliser 

des calculs dont les résultats soient généralisables à la population. 

8

2.9 Les programmes (do-files) 

Sous Stata, on peut travailler de manière interactive (interactive mode) ou différée (batch 

mode). On travaille de manière interactive lorsqu’on écrit les instructions une à une dans 

la fenêtre Command. 

On travaille de manière interactive pour examiner ou explorer les données, vérifier 

qu’une transformation donne bien le résultat que l’on veut qu’elle donne et, plus 

généralement, lorsque les opérations que l’on effectue ne sont pas définitives. Lorsqu’on 

effectue des opérations qui doivent mener à des transformations importantes des données 

ou produire des résultats destinés à la publication, il est impératif d’écrire l’ensemble des 

instructions nécessaires pour obtenir le résultat voulu dans un fichier qui peut être 

exécuté en entier en une seule fois et de manière autonome. Cette manière de précéder est 

la seule qui permette à l’usager et à autrui (ses pairs, son directeur de recherche, son 

patron, le personnel qui peut être appelé à le dépanner) de s’assurer de la cohérence des 

opérations, de conserver une trace exacte des opérations qui ont mené à un résultat donné, 

de produire ce résultat si besoin est et d’apporter les corrections nécessaires sans avoir à 

tout réinventer lorsqu’on découvre une erreur. 

Sous Stata, les fichiers qui contiennent des suites d’instructions doivent porter l’extension 

.do pour que le logiciel les reconnaisse comme tels. L’usage fait que l’on nomme dofiles 

les fichiers d’instructions destinés à être exécutés en différé par Stata. On peut écrire 

ces fichiers d’instructions avec un éditeur de texte, comme l’éditeur ConTEXT qui est 

installé à l’antenne UQAM/INRS du CIQSS, ou avec l’éditeur de texte de Stata, qui se 

nomme Do-file editor. Il est fortement déconseillé d’écrire un fichier de ce genre avec un 

traitement de texte. 

On ouvre l’éditeur de programme de Stata en cliquant sur le bouton New Do-file Editor. 

On écrit le programme en inscrivant les instructions les unes au-dessous des autres, et en 

terminant chacune en appuyant sur touche la Entrée. Pour que Stata exécute les 

instructions, cliquez sur l’icône Do current file . On peut aussi utiliser l’instruction do 

"[path\]filename.do" [, nostop]. 

9

On peut aussi inscrire doedit pour ouvrir l’éditeur de do-file dans la fenêtre Command. 

L’option nostop laisse Stata continuer même si une erreur se produit. 

Par exemple, inscrivez et exécutez par la suite : 

clear 

set mem 300m 

use "2001famille24.dta", clear 

Pour sauvegarder ou ouvrir un do-file, il faut simplement passer par la fenêtre Do-file 

Editor et sélectionner File/Save (Ctrl+S) ou File/Open (Ctrl+O) selon le cas. L’extension 

du fichier sera .do. 

Astuce : 

Lorsque vous aurez un do-file volumineux, si vous sélectionnez une partie du texte dans 

la fenêtre Do-file Editor et cliquez sur Do current file, Stata n’exécutera que les 

instructions surlignées. 

Conseil : 

Dès que la tâche dépasse quelques lignes, il devient préférable d’utiliser un éditeur de 

programmes comme ConTEXT plutôt que l’éditeur de Stata. Les éditeurs de 

programmes permettent généralement d’afficher les différentes parties des instructions 

dans des couleurs différentes selon la nature de l’instruction et de chacune de ces parties. 

Ceci permet de repérer rapidement les parenthèses et les guillemets oubliés ou en trop, 

ce que l’éditeur de Stata ne permet pas et les traitements de texte non plus. Les éditeurs 

de programmes possèdent également des fonctions utiles, comme la sélection de blocs 

de largeur arbitraire, ce que ne permet pas l’éditeur de Stata et encore moins les 

traitements de texte. 

Astuce : 

#delimit { ; | cr } 

En inscrivant « #delimit ; », toutes les instructions doivent se terminer par « ; ». 

Cette instruction est utile pour les longues listes d’instructions (voir l’annexe 1 pour un 

exemple). Pour revenir au mode normal, il suffit de taper « delimit cr ». 

2.10 Commentaires 

Une fois un programme écrit, on oublie rapidement les raisons qui ont motivé le choix et 

l’ordre des instructions qui le constituent. Pour cette raison, et aussi pour permettre aux 

personnes avec lesquelles on est susceptible de partager les programmes que l’on écrit — 

directeur de recherche, collègues d’une équipe de recherche — il est nécessaire 

d’expliquer le but et le fonctionnement et commenter les instructions ou blocs 

d’instructions qui le constituent. 

Stata offre deux manières d’ajouter des commentaires à un programme. 

La première consiste à placer un astérisque (*) au début de la ligne indique au logiciel 

qu’il ne doit pas s’occuper de ce qui est écrit sur cette ligne. Cette manière permet, par 

exemple, de placer un titre court au début de chaque section du programme ou une 

explication courte avant ou après une instruction. 

10

L’autre manière consiste à marquer le début du commentaire par une barre oblique suivie 

d’un astérisque (/*) et de marquer la foin du commentaire par un astérisque suivi d’une 

barre oblique (*/). Cette manière permet d’inscrire un commentaire très court au milieu 

ou à la fin d’une ligne d’instruction. Elle permet également d’ajouter des commentaires 

plus longs qui occupent plusieurs lignes : tout ce qui est compris entre la marque du début 

et la marque de la fin du commentaire est ignoré par le logiciel, qui se contente de le 

recopier dans la fenêtre Results et dans le fichier .log. 

* Ceci est un commentaire. Stata le recopie sans l’interpréter. 

tab var1, missing nolabel /* Ceci est aussi un commentaire. */ 

/* Ceci est également un commentaire, 

volontairement écrit sur plus d’une ligne. */ 

2.11 Conservation des données en mémoire 

Il arrive parfois que l’on veuille transformer les données en mémoire de manière 

temporaire. Les instructions preserve et restore permettent de faire ceci de manière 

très simple, sans avoir à sauvegarder les données en mémoire dans un fichier. 

Taper preserve ordonne à Stata de copier les données en mémoire, dans l’état où elles 

sont à ce moment, dans un espace réservé du disque dur. Taper restore efface les 

données en mémoire et les remplace par les données conservées sur le disque dur par la 

plus récente instruction preserve. 

2.12 Création d’un fichier de sortie (log file) 

log using “[path\]filename[.log]” [, append replace] 

Contrairement au fichier .do, où l’on ne conserve que les instructions, le fichier .log 

permet de conserver tout ce qui défile dans la fenêtre Results, c.-à-d. les instructions et les 

résultats. 

L’instruction log using demande au logiciel de conserver dans un fichier tout ce qui 

défile dans la fenêtre Results. On peut utiliser cette instruction à partir de la fenêtre 

Command; dans ce cas, on conservera dans un fichier tout ce qui s’affichera par la suite 

dans la fenêtre Results. Il est plus courant d’utiliser l’instruction log using dans un 

programme, et donc dans un fichier .do. Elle permet alors de conserver tout ce que le 

programme fait défiler dans la fenêtre Results. Règle générale, on place l’instruction log 

using au tout début du programme. 

Dans un programme, on utilse généralement cette instruction sous la forme suivante : 

log using [nom du fichier choisi].log, replace 

Utiliser l’extension .log indique que l’on veut conserver les résultats sous forme de 

texte simple plutôt qu’avec une mise en forme décrite le langage SMCL de Stata. Les 

fichiers écrits en SMVL ne peuvent être lus qu’avec le Viewer de Stata, ce qui les rend 

généralement peu utiles. L’option replace indique que l’on veut remplacer le fichier du 

même nom s’il existe déjà. On peut souhaiter ajouter du contenu au fichier .log qui 

existe déjà plutôt que de le remplacer; on utilise alors l’option append. 

clear 

set mem 300000 

11

use "\\\Rafii\usagers\PROF\ECO5072\edtrperson2002.dta", clear 

log using atelierstata.log, replace 

(On inscrit ici les diverses instructions.) 

log close 

log close ferme le fichier log. 

log off le suspend pour l’ouvrir plus tard. 

log on le réactive. 

Entre guillemets, on peut mettre le nom du fichier .log s’il est dans le répertoire de 

travail ou alors il faut mettre le chemin au long. Ce chemin apparaît dans la fenêtre 

Results quand on ouvre une base de données avec File/Open. 

Pour ouvrir le fichier .log, dans Stata, il faut passer par File/Log/View. La sélection à 

l’aide de la souris se fait par l’option Browse ou on peut aussi écrire directement le nom 

du fichier .log, dans ce cas-ci, atelierstata.log. 

La fenêtre Viewer s’ouvrira alors. Pour l’amener dans les contrôles, l’option copier 

(Ctrl+C) coller (Ctrl+V) dans un fichier MS Word demeure la façon la plus facile. Par 

contre, pour bien respecter la mise en page, il faut choisir la police Courrier New avec 

une taille maximum de 9. 

Si le nom du fichier .log existe déjà, la fonction append rajoutera les résultats et les 

instructions à la suite. 

Par ailleurs, l’option replace réécrit par-dessus le fichier du même nom. 

Pour n’obtenir que les lignes d’instructions sans les résultats, il suffit de rajouter cmd 

avant l’instruction log. 

cmdlog using “[path\]filename” [, append replace] 

cmdlog close 

cmdlog off 

cmdlog on 

2.13 Utiliser le dictionnaire des variables 

Pour savoir quelles variables sont disponibles et leur signification dans une base de 

données, un dictionnaire des variables est indispensable. 

Pour les données du Recensement de 2001 (fichier de microdonnées à grande diffusion 

sur les familles du recensement de 2001), Statistique Canada fournit toutes les 

informations nécessaires par thèmes. 

Au-dessus de chaque page, vous verrez à quel fichier (personnes, de familles 

économiques, de familles de recensement ou clé) appartiennent les variables. 

La fonction sum TOTALC montre que le maximum est 9999999. Dans le dictionnaire, on 

indique que le 9999999 signifie Non applicable. Ainsi, cette donnée non valide biaise la 

moyenne. Pour calculer la vraie moyenne de TOTALC, il faudra donc poser des 

conditions… 

12

Astuce : 

Pour chercher une variable en particulier ou un mot dans un fichier Adobe Reader 

(*.pdf), utilisez l’instruction Rechercher (Ctrl+F). Par exemple, faites Ctrl+F et tapez 

jobdur1 et vous arriverez directement à la description de cette variable. 

Astuce : 

Si vous voulez obtenir la liste des variables rapidement et dans un format compact, faites 

l’instruction ds. 

3. Explorer les données 

3.1 Voir les données 

browse [varlist] [if exp] [in range] 

Cette instruction ouvre la matrice en mode visionnement seulement. En tapant browse, 

on voit toute la base de données. 

edit [varlist] [if exp] [in range] 

Cette instruction effectue la même chose que browse à la différence qu’elle permet de 

modifier les données comme dans un chiffrier. Ctrl+7 est une touche raccourcie. 

save [“[path\]filename”] [, replace] 

save sauvegarde la base de données présentement utilisée par Stata. save myfile 

sauvegarderait myfile.dta dans le répertoire de travail de Stata. Si ce fichier existait 

déjà, il faudrait utiliser l’option replace : 

save myfile, replace. 

3.2 Décrire les données 

describe [varlist] [, short detail fullnames numbers] 

Ou, si la base de données n’est pas téléchargée, on pourrait inscrire : 

describe using [path\]filename 

Par exemple, avec la base de données edtr2002 personnes.dta, on aurait, mais avec 

une liste de variables beaucoup plus longues que celle-ci: 

clear 

set mem 300m 

use "2001famille24.dta" 

describe 

Contains data from 2001famille24_pat.dta 

obs: 871 Fichier de microdonnées du 

recensement de 2001 - Extrait 

du fichier des familles 

vars: 42 3 Jan 2008 13:55 

size: 79,261 (99.9% of memory free) 

------------------------------------------------------------------------------- 

storage display value 

variable name type format label variable label 

------------------------------------------------------------------------------- 

13

PROVF byte %57.0g PROVF PROVINCE OU TERRITOIRE 

CMAF int %40.0g CMAF RÉGION MÉTROPOLITAINE DE 

RECENSEMENT (RMR) 

NSTIENC byte %37.0g NSTIENC NOMBRE DE SOUTIENS DANS LE 

MÉNAGE 

ROOMC byte %18.0g ROOMC NOMBRE DE PIÈCES 

RPAIRC byte %31.0g RPAIRC ÉTAT DU LOGEMENT 

VALUEC long %10.0g VALUEC VALEUR DU LOGEMENT 

TENUREC byte %54.0g TENUREC MODE D’OCCUPATION 

[ETC…] 

L’instruction list présente simplement la liste des valeurs des variables demandées. 

list [varlist] [if exp] [in range] [, [no]display noheader 

nolabel noobs doublespace] 

Toutes les variables seront présentées si aucune n’est spécifiée. Il faudrait mettre des 

conditions… 

clear 

set mem 300m 


list TOTALC-SELFIC in 1/20 if TENUREC==1 

+--------------------------+ 

| TOTALC WAGESC SELFIC | 

|--------------------------| 

2. | 33573 4200 0 | 

3. | 53000 53000 0 | 

5. | 78432 77930 0 | 

6. | 44028 40000 0 | 

8. | 79865 79647 0 | 

|--------------------------| 

11. | 18314 17265 0 | 

12. | 46920 46920 0 | 

13. | 45171 24930 0 | 

14. | 70000 70000 0 | 

15. | 50000 50000 0 | 

|--------------------------| 

17. | 74585 68550 0 | 

18. | 82405 82000 0 | 

19. | 8370 2700 0 | 

+--------------------------+ 

L’instruction list ec* in 1/20 if ecsex99==1 présentera les valeurs des 

observations 1 à 20 dont le la famille est propriétaire et dont la liste des variables 

commence par TOTALC et termine par SELFIC. 

L’instruction inspect donne une bonne idée d’une variable numérique : 

inspect [varlist] [if exp] [in range] 

clear 

set mem 300m 


inspect ROOMC 

ROOMC: NOMBRE DE PIÈCES Number of Observations 

------------------------ Non- 

Total Integers Integers 

14

| # Negative - - - 

| # Zero - - - 

| # Positive 871 871 - 

| # # # ----- ----- ----- 

| # # # Total 871 871 - 

| . # # # # Missing - 

+---------------------- ----- 

1 10 871 

(10 unique values) 

ROOMC is labeled and all values are documented in the label. 

L’instruction codebook peut être utilisée aussi bien avec des variables numériques que 

des variables alphanumériques (string variables). 

codebook [varlist] [, all header notes mv tabulate(#)] 

codebook CFTYPE TOTALC 

------------------------------------------------------------------------------- 

---------------------------------------------------------------- 

CFTYPE 

GENRE DE FAMILLE DE RECENSEMENT 

------------------------------------------------------------------------------- 

---------------------------------------------------------------- 

type: numeric (byte) 

label: CFTYPE 

range: [1,9] units: 1 

unique values: 4 missing .: 0/871 

tabulation: Freq. Numeric Label 

544 1 Famille de soutien principal 

2 2 Autre famille avec soutien 

12 3 Famille sans soutien 

313 9 Sans objet 

------------------------------------------------------------------------------- 

---------------------------------------------------------------- 

TOTALC 

REVENU TOTAL DE LA FAMILLE DE RECENSEMENT 

------------------------------------------------------------------------------- 

---------------------------------------------------------------- 

type: numeric (long) 

label: TOTALC, but 826 nonmissing values are not labeled 

range: [0,9999999] units: 1 


examples: 15516 

30948 

48562 

72604 

4. Manipulation des données I 

4.1 Création et transformation d’une variable 

Pour créer de nouvelles variables, on utilise l’instruction generate. 

generate [type] newvar = exp1 [if exp2] [in range] 

15

L’option type sert à préciser le type de variables: byte, int, long, float, 

double ou str#. Stata choisit automatiquement en l’absence d’une spécification. 

exp1 comprend l’opération qui génèrera la nouvelle variable. 

exp2 comprend les conditions sous lesquelles la nouvelle variable est générée. 

Par exemple, pour vérifier un effet non linéaire sur l’âge, il faudrait d’abord créer la 

variable de l’âge au carré : 

g age2= ecage26^2 

En allant voir dans le Data Browser ou en faisant browse, complètement à gauche, la 

variable age2 sera visible. 

Ou encore, pour utiliser le logarithme du salaire, on écrirait : 

g lnsalaire = ln(earng42) 

Astuce : 

Pour s’assurer que la bonne variable a bel et bien été créée, vous pouvez la vérifier grâce 

à l’instruction keep [noms des variables]. Cette instruction éliminera toutes les 

variables de la base de données sauf celles inscrites à la suite de keep. Ensuite, vous 

n’avez qu’à vérifier dans le Data Editor que les bonnes opérations ont été effectuées. 

Mais attention, il faut avoir enregistré les instructions du projet dans un fichier do pour 

pouvoir recréer la base de données utilisée. 

Autrement, par la suite, on peut faire dans Stata soit File/Save As… ou Ctrl+S pour 

enregistrer un fichier *.dta qui constituera une base de données personnalisée. 

Cependant, pour éviter les erreurs, il est préférable de travailler à partir de la base de 

données originale sans jamais la modifier. En cas de catastrophe, on revient à la base de 

données originale. 

Astuce : 

Pour s’y retrouver dans le Data Editor, l’instruction aorder place toutes les variables 

en ordre alphabétique. 

Voici des exemples d’opérations algébriques effectuées dans Stata (Hébert, 2003, p. 16) : 

c = a+b 

c = a-b 

c = a*b 

c= a/b 

c= b^c (pour b c ) 

c = log(b) 

c = sqrt(a) (pour a ) 

c = exp(b) (pour e b ) 

Voici d’autres exemples (Hébert, 2003, p. 16) : 

generate sumx1x2 = x1+ x2 

16

generate sqrtx3 = sqrt(x3) if 

x3>=0 

generate abs_x4= abs(x4) Valeur absolue de x4 

generate trunc_x5 = int(5) Nombre entier obtenu en tronquant x5 

generate rnd_x6 = round(x6,.01) Valeur de x6 à deux décimales 

generate str1 gender = 

string(sex) 

generate byte ngender = 

real(gender) 

generate startdate = 

mdy(mthvar,dayvar,yearvar) 

17 

Création d’une variable alphanumérique 

d’un caractère à partir de la variable 

numérique sex 

Création d’une variable numérique à partir 

de la variable alphanumérique gender 

Création d’une variable date en format 

Stata à partir de trois variables numériques 

soit le mois, le jour et l’année. 

generate p = uniform() Création de la variable p qui est tirée 

aléatoirement et comprise entre 0 et 1. 

generate z = invnorm (p) Affecte à la variable z, la valeur de la 

variable aléatoire qui correspond à la 

valeur p de la fonction de répartition de la 

loi normale. Par définition, la fonction de 

répartition d’une loi statistique varie de 0 à 

1. Ici, si p varie uniformément entre 0 et 1 

(ce qui est le cas du p de l’exemple 

précédent), z suit une loi normale centrée 

réduite. On utilise couramment cette 

procédure pour générer une variable 

artificielle qui suit une loi normale. 

On utilise help function pour obtenir la liste de toutes les fonctions disponibles. 

L’instruction egen offre également une série de possibilités qui permettent de créer 

rapidement des variables qui demanderaient autrement plusieurs lignes d’instructions. 

egen [type] newvar = function(arguments) [if exp] [in range] [, 

options] 

Certaines fonctions génèrent la même constante pour toutes les observations (Hébert, 

2003, p. 17). 

egen min_x1 = min(x1) Prend la valeur minimum de x1 

egen max_x1 = max(x1) Prend la valeur maximale de x1 

egen sum_x1 = (x1) Somme de toutes les valeurs de x1 

egen med_x1 = median(x1) Valeur médiane de x1 

egen avg_x1 = mean(x1) Moyenne de x1 

egen sd_x1 = sd(x1) Écart-type de x1. 

Certaines fonctions génèrent une valeur différente pour chaque observation ou ligne. 

egen z_x1 = std(x1) Valeur standardisée de x1 

(soustraire la moyenne et diviser par

l’écart-type). 

egen rank_x1 = rank(x1) Rang de l’observation 

egen min_x = rmin(x1 x2 x3) Valeur minimale entre (x1, x2, x3) 

egen max_x = rmax(x1 x2 x3) Valeur maximale entre (x1, x2, x3) 

gen et egen ne peuvent que créer de nouvelles variables. Pour changer une variable 

existante, on doit utiliser l’instruction replace. 

replace oldvarname = exp1 [if exp2] [in range] 

L’instruction suivante permet de changer la valeur d’une variable par une autre valeur : 

replace [variable concernée]=[nouvelle valeur] if (conditions) 

Pour remplacer la valeur 97 de la variable pvreg25 par un point, il suffirait d’entrer : 

replace pvreg25=. if pvreg25==97 

Conseil : 

Lorsque Stata rencontre un point (.) comme valeur, il considère la donnée comme 

manquante et ne la traite tout simplement pas. 

Par contre, dans une condition, toute valeur numérique est inférieure au point. 

Par exemple, replace adult=1 if age>18 remplacerait le point par 1 parce que 

Stata considère le point supérieur à 18. Il faudrait plutôt inscrire replace adult=1 

if age>18 & age

Ce qui suit est un autre exemple impliquant un replace de plus d’une condition : 

tab studtf26 

studtf26 | Freq. Percent Cum. 

------------+----------------------------------- 

1 | 8,455 15.04 15.04 

2 | 40,897 72.75 87.79 

7 | 1 0.00 87.79 

9 | 6,863 12.21 100.00 

------------+----------------------------------- 

Total | 56,216 100.00 

replace studtf26=. if studtf26=7 

(6864 real changes made, 6864 to missing) 

tab studtf26 

studtf26 | Freq. Percent Cum. 

------------+----------------------------------- 

1 | 8,455 17.13 17.13 

2 | 40,897 82.87 100.00 

------------+----------------------------------- 

Total | 49,352 100.00 

L’instruction mvdecode change des valeurs données d’une variable en point et 

mvencode le contraire. 

mvdecode varlist [if exp] [in range], mv(numlist) 

mvencode varlist [if exp] [in range], mv(#) 

Par exemple, 

mvdecode q1-q10, mv(9998 9999) Change les codes 9998 et 9999 en points 

pour les variables q1 à q10. 

Mvencode q1-q10, mv(9999) Change les points en 9999. 

L’instruction recode effectue à peu près la même chose que l’instruction replace : 

recode varname oldcode [oldcode] = newcode [if exp] [in range] 

19

On pourrait ainsi recoder la variable CMAF : 

tab CMAF 

RÉGION MÉTROPOLITAINE DE RECENSEMENT | 

(RMR) | Freq. Percent Cum. 

----------------------------------------+----------------------------------- 

Québec | 88 10.10 10.10 

Montréal | 422 48.45 58.55 

Sherbrooke (433) et Trois-Rivières (442 | 36 4.13 62.69 

Ottawa-Hull | 26 2.99 65.67 

Sans objet | 299 34.33 100.00 

----------------------------------------+----------------------------------- 

codebook CMAF 

Total | 871 100.00 

------------------------------------------------------------------------------- 

-------------------------------------------------------------- 

CMAF 

RÉGION MÉTROPOLITAINE DE RECENSEMENT (RMR) 

------------------------------------------------------------------------------- 

-------------------------------------------------------------- 

type: numeric (int) 

label: CMAF 

range: [421,999] units: 1 


tabulation: Freq. Numeric Label 

88 421 Québec 

422 462 Montréal 

36 499 Sherbrooke (433) et 

Trois-Rivières (442) 

26 505 Ottawa-Hull 

299 999 Sans objet 

recode CMAF 421=1 462=2 499=3 505=4 999=. 

(CMAF: 871 changes made) 

tab CMAF 

RÉGION MÉTROPOLITAINE DE RECENSEMENT | 

(RMR) | Freq. Percent Cum. 

----------------------------------------+----------------------------------- 

1 | 88 15.38 15.38 

2 | 422 73.78 89.16 

3 | 36 6.29 95.45 

4 | 26 4.55 100.00 

----------------------------------------+----------------------------------- 

Total | 572 100.00 

20

Voici d’autres exemples (Hébert, 2003, p. 18) : 

recode x1 9=. La valeur 9 devient un point. 

recode x2 2=1 3 4 5 6=2 Change le 2 en un et (3,4,5,6) en 2. 

recode x2 2=1 3/6=2 Ibidem. 

recode x3 1 2=1 *=2 Change 1 et 2 en un et le reste en 2. 

recode x4 

65/max=3 

min/34=1 35/64=2 Change les valeurs inférieures à 34 en 1, 

entre 35 et 64 en 2 et supérieur ou égal à 

65 en 3. 

4.2 Noms et descripteurs 

Pour renommer une variable, l’instruction rename semble toute indiquée : 

rename oldvarname newvarname 

L’instruction rename prov1 qc change le nom original prov1 pour qc, tout 

simplement. 

L’instruction describe permet d’afficher certaines propriétés d’une variable. Pour 

inscrire quelque chose dans la colonne variable label, ou descripteur de la variable 

en français, l’instruction suivante sera utile : 

label variable varname "Variable label" 

d ecage26 



----------------------------------------------------------------------- 

ecage26 float %9.0g 

. label variable ecage26 "Age du sondage" 

d ecage26 



----------------------------------------------------------------------- 

ecage26 float %9.0g Age du sondage 

De cette manière, on ne peut oublier la signification des variables du projet. 

On peut aussi attacher une note à la base de données téléchargée par Stata : label data 

"dataset label". 

Par exemple, label data "Projet Transitions". 

De même, on peut le faire pour des variables en deux étapes : 

label define labelname value1 "Descripteur 1" … value# /// 

"Descripteur#" 

label values varname labelname 

Pour voir la liste des notes attachées aux valeurs d’une variable, il faut utiliser 

l’instruction label list [lblname [lblname ...]]. 

21

Par exemple, pour la variable province PROVF, on aurait : 

describe PROVF 



------------------------------------------------------------------------------- 

PROVF byte %57.0g PROVF PROVINCE OU TERRITOIRE 

label variable PROVF "Provinces du Canada" 

label data "Projet Transitions" 

label define PROVF 10 "Terre-Neuve" 11 "Iles-du-Prince-Edouard" /// 

12 "Nouvelle-Ecosse" 13 "Nouveau-Brunswick" 24 "Quebec" 35 "Ontario"/// 

46 "Manitoba" 47 "Saskatchewan" 48 "Alberta" 59 "Colombie-Britannique" 

60 "Territoire du Yukon, Territoires du Nord-Ouest et Nunavut" 

label values PROVF PROVLABEL 

describe PROVF 



------------------------------------------------------------------------------- 

PROVF byte %57.0g PROVLABEL 

Provinces du Canada 

label list 

PROVF: 

10 Terre-Neuve-et-Labrador 

11 Île-du-Prince-Édouard 

12 Nouvelle-Écosse 

13 Nouveau-Brunswick 

24 Québec 

35 Ontario 

46 Manitoba 

47 Saskatchewan 

48 Alberta 

59 Colombie-Britannique 

60 Territoire du Yukon, Territoires du Nord-Ouest et Nunavut 

Voir help label et help notes pour plus de détails. 

4.3 Création de variables dichotomiques 

Une variable dichotomique (dummy variable) prend la valeur 1 si l’individu est exposé à 

un facteur et 0 autrement. Ce type de variable sert souvent à traiter de multiples groupes à 

la fois. Par exemple, pour les provinces, dix variables dichotomiques sont nécessaires, 

chacune prenant la valeur 0 ou 1. 

En fait, il faudra en éliminer une pour ne pas avoir de problème de multicolinéarité 

parfaite dans les régressions à faire, mais ce problème sera traité dans un autre atelier. 

Ainsi, l’instruction à utiliser sera : 

g [nom de la variable créée] =(conditions). 

Par conséquent, pour les provinces, il faudrait procéder comme suit : 

22

g TENUREC_P=(TENUREC==1) 

g TENUREC_L=(TENUREC==2) 

Donc, l’instruction g TENUREC_P=(TENUREC==1) générera une variable dichotomique 

qui prend la valeur de 1 seulement si TENUREC==1 et 0 autrement. 

Encore, pour créer une variable dichotomique pour des famille de 3 à 5 enfants 

inclusivement, on écrirait : 

gen famille3_5=( NUCHILD>=3 & NUCHILD

Par exemple, cette fonction s’applique sur la composition de la famille : 

tab NUCHILD 

NOMBRE D’ENFANTS À | 

LA MAISON DANS LA | 

FAMILLE DE | 

RECENSEMENT | Freq. Percent Cum. 

--------------------+----------------------------------- 

Aucun enfant | 215 24.68 24.68 

Un enfant | 172 19.75 44.43 

Deux enfants | 115 13.20 57.63 

Trois enfants | 43 4.94 62.57 

Quatre enfants | 11 1.26 63.83 

Cinq enfants | 2 0.23 64.06 

Sans objet | 313 35.94 100.00 

--------------------+----------------------------------- 

Total | 871 100.00 

On peut également utiliser cette instruction pour obtenir le tri croisé de deux variables. 

tab NUCHILD TENUREC 

NOMBRE D’ENFANTS À | 

LA MAISON DANS LA | 

FAMILLE DE | MODE D’OCCUPATION 

RECENSEMENT | Possédé ( Loué (arg | Total 

--------------------+----------------------+---------- 

Aucun enfant | 151 64 | 215 

Un enfant | 115 57 | 172 

Deux enfants | 91 24 | 115 

Trois enfants | 32 11 | 43 

Quatre enfants | 8 3 | 11 

Cinq enfants | 1 1 | 2 

Sans objet | 104 209 | 313 

--------------------+----------------------+---------- 

Total | 502 369 | 871 

Astuce : 

Lorsqu’on utilise l’instruction tabulate avec variable continue, on obtient un 

déroulement d’une foule de lignes. Pour arrêter le défilement, on tape simplement sur q. 

L’icône Break occupe la même fonction. 

Exemple : faites tab jobdur1 et tapez ensuite sur q. 

Astuce : 

Pour importer dans un fichier MS Word les résultats de Stata, rien n’est plus simple. Un 

bon vieux copier (Ctrl+C) coller (Ctrl+V) à partir de la fenêtre Stata Results fera 

l’affaire. La mise en page Courrier New avec une taille 9 permettra de respecter la 

présentation de Stata. 

24

tabulate rowvar [colvar] [if] [in] [weight] [, chi2 lrchi2 gamma 

taub V all column row nofreq missing nolabel] 

Les cinq premières options sont des tests statistiques : le test du chi carré de Pearson, le 

ratio de vraisemblance du test du chi carré, le gamma de Goodman et Kruskal, le tau-b de 

Kendall et le V de Cramer. 

all les instruction tous. 

Les options column et row demande les pourcentages des colonnes et des lignes alors 

que nofreq élimine les fréquences. 

tabulate rowvar [colvar] [if] [in] [weight], summarize(varname) 

[options] 

Par exemple, pour un graphique présentant le salaire moyen selon la province et le sexe, 

on aurait : 

tab NUCHILD TENUREC if NUCHILD

Par exemple, on aurait un tableau comme suit : 

corr TOTALC TENUREC 

(obs=871) 

| TOTALC TENUREC 

-------------+------------------ 

TOTALC | 1.0000 

TENUREC | -0.0704 1.0000 

Lorsqu’il y a plus de deux variables, Stata s’ajuste automatiquement : 

corr TOTALC TENUREC ROOMC 

(obs=871) 

| TOTALC TENUREC ROOMC 

-------------+--------------------------- 

TOTALC | 1.0000 

TENUREC | -0.0704 1.0000 

ROOMC | 0.0390 -0.5407 1.0000 

On peut indifféremment y inclure des variables continues ou discrètes afin d’avoir une 

idée du signe et donc de la progression d’une variable par rapport à l’autre. 

Dans l’exemple précédent, on note que le revenu total et le mode d’occupation sont 

inversement corrélés. Donc, le fait d’être locataire (TENUREC==2) semble révéler à 

première vue un revenu total plus faible chez les familles. Cependant, il demeure 

essentiel de vérifier cette assertion par un test statistique. Auparavant, toutefois, il faudra 

faire une régression. 

L’instruction pwcorr pour pairwise correlation permet d’autres options. 

pwcorr varlist [if] [in] [weight] [, obs sig bonferroni] 

L’option obs indique le nombre d’observations utilisé pour calculer les coefficients. 

L’option sig demande un test de significativité et l’option bonferroni fait des 

ajustements au niveau de la significativité des tests. 

pwcorr earng42 jobdur1 if jobdur1>=0 & jobdur1=0 

& ecage26

Les options : 

detail affiche des corrélations inter items. 

item affiche des tests de corrélation d’items et les effets d’en enlever un. 

generate sauvegarde l’échelle construite par le test sous newvar. 

Par exemple, 

alpha ecage26 ecsex99, generate(score) 

Test scale = mean(unstandardized items) 

Average interitem covariance: .2736863 

Number of items in the scale: 2 

Scale reliability coefficient: 0.0034 

Pour tester l’indépendance de deux variables, l’instruction spearman produit le 

coefficient de corrélation de rang de Spearman. Aussi, l’instruction ktau affiche le tau-a 

et le tau-b de Kendall. 

spearman varname1 varname2 [if] [in] 

ktau varname1 varname2 [if] [in] 

5.3 Visualisation de données 

Il existe plusieurs instructions pour faire des graphiques dans Stata. L’instruction générale 

s’écrit comme suit : 

graph_command varlist [if] [in] [weight] [, type_specific_options 

general_options] 

La fonction graph dans la barre des tâches peut toujours offrir une alternative aux 

instructions plus complexes et moins intuitives. 

27

Les exemples suivants reprennent la présentation d’Hamilton (2006 : 64-116). 

a) L’histogramme de fréquences 

clear 

set mem 300m 

use http://www.uwm.edu/~sbenesh/states.dta 

histogram college, frequency title(Figure 3.1) 

Frequency 

0 5 10 15 20 

Figure 3.1 

10 15 20 25 30 35 

% over 25 w/bachelor's degree + 

28

) Le diagramme en boîtes 

graph box college, over(region) yline(19.1) 


10 15 20 25 30 

c) Le graphe simple 

West N. East South Midwest 

clear 

set mem 300m 

use http://www.stata-press.com/data/r9/uslifeexp.dta 

line le year 

life expectancy 

40 50 60 70 80 

1900 1920 1940 1960 1980 2000 

Year 

29

d) Le nuages de points 

clear 

set mem 300m 


scatter college income 


10 15 20 25 30 35 

25000 30000 35000 40000 45000 50000 

Median household income 

e) Le nuage de points et sa droite de régression 

clear 

set mem 300m 


scatter college income || lfit college income 

10 15 20 25 30 35 

25000 30000 35000 40000 45000 50000 

Median household income 

% over 25 w/bachelor's degree + Fitted values 

30

f) Le diagramme à bâtons 

clear 

set mem 300m 


graph bar density, over(region) 

mean of density 

0 100 200 300 400 500 

g) Autres instructions reliées aux graphes 

graph 

West N. East South Midwest 

Cette instruction exécute à nouveau la dernière instruction graph soumise. 

graph export filename.emf [, replace] 

Cette instruction conserve le graphe dans un fichier au format Extended Metafile, ce qui 

permet de l’utiliser par la suite avec les logiciels qui reconnaissent ce format. Conserver 

un graphe de cette manière permet de l’importer dans un document Word. 

graph save mon_graphe, replace 

Cette instruction conserve le graphe dans le fichier de travail mon_graphe même si un 

fichier de ce nom existe déjà; l’ancien contenu est alors effacé. 

Pour afficher de nouveau le graphe à l’écran, on exécute l’instruction graph use 

mon_graphique. 

Pour plus d’informations, voir help graph. 

6. Combiner des bases de données 

6.1 Concaténation de bases de données 

La concaténation consiste à combiner deux bases de données en copiant l’une à la suite 

de l’autre. Règle générale, on concatène des bases qui contiennent les mêmes variables 

mesurées sur des unités d’observation différentes. Dans Stata, la concaténation se réalise 

au moyen de l’instruction append. 

append using “[path\]filename” 

31

On réalise l’opération en ajoutant un fichier de données conservé sur disque aux données 

qui se trouvent en mémoire; dans l’instruction, filename désigne le fichier qui est 

ajouté aux données déjà en mémoire. Dans la terminologie de Stata, le fichier déjà en 

mémoire est le fichier maître (master dataset). La base de données qui résulte de la 

concaténation devra être sauvegardée pour ne pas être perdue. Par exemple (Hébert, 

2003, p. 25). 

Si une variable n’existe que dans une seule des deux bases de données, par exemple la 

variable mth, l’instruction append concatène les deux bases observations en conservant 

la variable et en attribuant la valeur manquante aux observations de la base dans laquelle 

la variable n’existe pas. 

Ici, l’information de la variable mth est simplement manquante dans les observations qui 

proviennent de la deuxième base de données où cette variable n’existe pas. 

Si les variables ne sont pas dans le même ordre dans les deux bases, l’instruction append 

construit la nouvelle base en reprenant l’ordre du fichier maître. 

32

6.2 Fusion de bases de données 

(Voir l’annexe 2 pour un exemple complet) 

Règle générale, on fusionne des bases de données qui contiennent des variables 

différentes mesurées sur les mêmes unités d’observation. La fusion consiste alors à 

combiner sur une seule ligne les lignes des deux bases qui proviennent de la même unité 

d’observation. Autrement dit, la fusion agrège des variables alors que la concaténation 

agrège des observations. Dans Stata, la fusion se réalise au moyen de l’instruction 

merge. Elle se fait en ajoutant les données d’un fichier conservé sur disque aux données 

déjà en mémoire. Règle générale, elle se fait en appariant les lignes sur la base d’un 

identifiant, c’est-à-dire d’une variable dont chaque valeur correspond à une seule unité 

d’observation; pour que l’appariement sur la base d’un identifiant soit possible, il faut 

évidemment que cette variable soit présente dans les deux bases de données que l’on 

fusionne. Il arrive parfois qu’on ne puisse identifier les unités d’observation qu’en 

combinant deux ou plusieurs identifiants. Ceci se produit couramment dans les bases de 

données produites dans le cadre d’enquêtes où on a recueilli de l’information auprès de 

plusieurs membres des mêmes familles ou des mêmes ménages. On distingue alors les 

individus de manière unique en combinant l’identifiant de leur famille ou de leur ménage 

et leur identifiant propre au sein de leur ménage et de leur faille. L’instruction merge 

permet de réaliser l’appariement sur la base d’une ou de plusieurs variables, qui forment 

l’option varlist de l’instruction. 

merge [varlist] using “[path\]filename” [, update replace nokeep] 

On peut réaliser une fusion sans utiliser de variable pour identifier les untiés 

d’observation. Dans ce cas, Stata fusionnera les lignes des deux bases de données 

simplement selon leur ordre dans chaque base. Cette manière de faire est rarement 

souhaitable… 

L’appariement selon un ou plusieurs identifiants exige que les observations des deux 

bases à fusionner soient triées au préalable selon chacune des variables utilisées comme 

identifiant. 

Si les deux bases de données contiennent des variables ayant le même nom, merge 

retient par défaut les valeurs du fichier maître. On peut modifier cette action en utilisant 

l’option update : avec l’option update, l’instruction merge remplace les valeurs 

manquantes dans le fichier maître par les valeurs de l’autre base de données. 

Par défaut, merge conserve les lignes qui proviennent des deux fichiers, même 

lorsqu’elles ne peuvent pas être appariées. L’option nokeep élimine les lignes de la base 

de données sur disque qui ne peuvent pas être appariées à une ligne du fichier maître 

(Hébert, 2003, p. 26). 

33

L’instruction merge ajoute toujours la nouvelle variable _merge dans le fichier qu’elle 

produit. La valeur de cette variable indique comment a été constituée chacune des lignes 

du fichier qu’elle a produit. 

1 indique que la ligne provient d’une ligne du fichier maître qui n’a pas été appariée 

à une ligne du fichier conservé sur disque. 

2 indique que la ligne provient d’une ligne du fichier conservé sur disque qui n’a 

pas été appariée à une ligne du fichier maître. 

3 indique que ligne résulte de la fusion de deux lignes appariées. 

L’annexe 2 montre un exemple plus concret à l’aide de l’EDTR. 

7. Manipulation des données II 

7.1 Sélectionner des variables ou des observations 

Éliminer une variable 

Éliminer une observation 

drop varlist 

drop if exp [in range] 

Ainsi, l’instruction drop ecage26 ecsex99 éliminera les deux variables précédentes. 

Ou alors, drop if ecage2665 éliminera les observations de gens 

qui n’ont pas entre 18 et 65 ans inclusivement. 

Conserver une variable 

Conserver une observation 

keep varlist 

keep if exp [in range] 

Ainsi, l’instruction keep ecage26 ecsex99 ne conserva que ces deux variables. keep 

if ecage26>=18 & ecage26

7.2 Relier des observations 

Pour utiliser l’information d’une observation pour une autre observation, on peut utiliser 

deux variables de système : 

_n contient le numéro de l’observation selon le présent ordre. 

_N contient le nombre total d’observations et aussi le numéro de la dernière 

observation. 

Si les observations sont reclassées, la valeur de _n changera aussi. 

Par exemple, on aurait (Hébert, 2003, p. 27) : 

gen obsno = _n obsno est égal au numéro de 

l’observation. 

gen obsnoplus1 = _n+1 obsnoplus1 est égal au numéro de 

l’observation plus 1. 

gen lag_x1 = x1[_n-1] lag_x1 prend la valeur de x1 de 

l’observation qui précède. 

gen last_x1 = x1[_N] last_x1 prend la valeur de x1 de la 

dernière observation. 

gen cum_x1 = sum(x1[_n-1]) cum_x1 fait la somme des valeurs de x1 

jusqu’à l’observation précédente. 

Lorsqu’on utilise l’instruction « by 

varname: », _n devient le numéro de 

l’observation dans chaque valeur de varname. 

_N est alors le numéro de la dernière 

observation dans chaque valeur de varname. 

Par exemple, 

by pvreg25 : gen idn= _n 

produit un numéro d’observation qui 

recommence à 1 pour chaque province. 

Voir help varlist et help tsset pour plus 

de détails. 

35

7.3 Répéter des instructions 

L’instruction for peut être utilisée pour répéter une instruction selon une liste de 

variables, une logique numérique ou des mots. 

for varlist varlist : commands_involving_X 

for newlist newvarlist: commands_involving_X 

for numlist numlist: commands_involving_X 

for anylist wordlist: commands_involving_X 

Des exemples permettront de comprendre. 

for varlist earng42 ecage26 ecsex99: sum X 

-> sum earng42 


-------------+-------------------------------------------------------- 

earng42 | 56216 21708.29 30166.52 -65000 835500 

-> sum ecage26 


-------------+-------------------------------------------------------- 

ecage26 | 56216 45.14199 17.90092 16 80 

-> sum ecsex99 


-------------+-------------------------------------------------------- 

ecsex99 | 56216 1.523143 .4994686 1 2 

clear 

set mem 300m 

use "edtr2002 personnes.dta" 

tab pvreg25, g(prov) 

for newlist v1-v10: g X = proX 

keep v1-v10 

-> g v1 = prov1 

-> g v2 = prov2 

-> g v3 = prov3 

-> g v4 = prov4 

-> g v5 = prov5 

-> g v6 = prov6 

-> g v7 = prov7 

-> g v8 = prov8 

-> g v9 = prov9 

-> g v10 = prov10 

for numlist 1/11: rename provX stateX 

-> rename prov1 state1 











clear 

set mem 300m 

use "edtr2002 personnes.dta" 

label define mf 1 "male" 2 "female" 

label values ecsex99 mf 

keep if ecsex99 summarize earng42 if gender=="male" 


36

-------------+-------------------------------------------------------- 

earng42 | 26807 28602.82 36368.41 -65000 835500 

-> summarize earng42 if gender=="female" 


-------------+-------------------------------------------------------- 

earng42 | 29409 15423.77 21238.9 -28000 410000 

Voir aussi help for, help foreach et help forvalues. 

7.4 Remodeler une base de données 

Certaines enquêtes mesurent plusieurs fois les mêmes variables auprès des mêmes unités 

d’observation. 

Dans les enquêtes biographiques, on recueille de l’information sur les différents aspects 

de la biographie des individus, par exemple sur chacun de ses emplois ou chacune de ses 

unions. Dans une telle enquête, on recueille donc une série complète de réponses aux 

questions sur les caractéristiques de l’emploi pour chacun des emplois et une série 

complète de réponses aux questions sur les caractéristiques de l’union pour chacune des 

unions. 

Dans les enquêtes à passages répétés, on s’intéresse généralement à l’évolution d’une ou 

plusieurs caractéristiques au fil du temps. On aura donc, par exemple, plusieurs mesures 

du revenu ou des résultats scolaires réalisées auprès des mêmes individus à des moments 

différents. 

Dans les deux cas, on se trouve donc à devoir stocker plusieurs séries de variables 

semblables pour chaque individu. Il existe plusieurs manières de stocker des séries de 

variables semblables et Stata permet d’en utiliser facilement deux : la méthode dans 

laquelle on conserve chaque série de variables dans une ligne différente d’un fichier de 

données et la méthode dans laquelle on ajoute les séries de variables les unes à la suite de 

autres sur la même ligne. Dans le premier cas, le fichier peut contenir plus d’une ligne par 

unité d’observation; dans le second cas, il ne contient qu’une seule ligne par unité 

d’observation. Dans le jargon de Stata, la première méthode produit un fichier « long » 

(long dataset) alors que la seconde produit un fichier « large » (wide dataset). 

Chaque méthode a ses avantages et ses inconvénients, mais peu importe celle que l’on 

choisit pour stocker les données, il devient souvent nécessaire de passer d’une forme à 

l’autre pour préparer les données nécessaires à une analyse. L’instruction reshape 

permet de remodeler sans douleur une base longue en base large et vice versa . 

Hébert (2003, p. 29) donne l’exemple suivant : 

reshape wide ij_variables, i(varlist) j(varname) 

reshape long ij_variables, i(varlist) j(varname) 

37

L’instruction reshape wide transforme une base « longue » en base « large ». 

L’instruction reshape long transforme une base « large » en base « longue ». 

ij_variables désigne la liste des variables qui ont été mesurées plus d’une fois aurpès 

des unités d’observation. 

i(varlist) désigne la variable ou les variables qui permettent d’identifier les unités 

d’observation. 

j(varlist) désigne la variable ou les variables qui permettent d’identifier les séries de 

variables mesurées plus d’une fois. Dans la base de données d’une enquête biographique, 

j désignera par exemple le rang de chaque emploi ou de chaque union. Dans une enquête 

à passage répétés, j désignera 

généralement le rang du passage. 

Par exemple, 

on aurait : 

clear 

use "long dataset.dta" 

reshape wide inc, i(id) j(year) 

(note: j = 1999 2000 2001) 

Data long -> wide 

----------------------------------------------------------------- 

Number of obs. 9 -> 3 

Number of variables 4 -> 5 

j variable (3 values) year -> (dropped) 

xij variables: 

inc -> inc1999 inc2000 inc2001 

----------------------------------------------------------------- 

clear 

use "wide dataset.dta" 

reshape long inc, i(id) j(year) 

(note: j = 1999 2000 2001) 

Data wide -> long 

----------------------------------------------------------------- 

Number of obs. 3 -> 9 

Number of variables 5 -> 4 

j variable (3 values) -> year 

xij variables: 

inc1999 inc2000 inc2001 -> inc 

----------------------------------------------------------------- 

Voir help reshape pour de l’aide 

8. Lire des bases de données brutes 

Stata ne lit les fichiers de données binaires produits par d’autres logiciels statistiques 

comme SAS ou SPSS. Des bases de données de diverses extensions sont donc 

normalement sauvegardées en format texte, de préférence avec l’extension .raw qui 

correspond, pour Stata, à un fichier de données brutes en format texte. 

La manière dont les données 

sont séparées déterminera quelle instruction il faudra utiliser 

pour les lire avec Stata. 

Une fois la base de données intégrée 

dans Stata, il suffit d’utiliser l’instruction save pour 

la sauvegarder au format .dta. 

38

8.1 Les fichiers dont les valeurs sont délimitées par des 

tabulations ou des virgules 

Nous suivons ici Hébert (2003 : 11-12). 

insheet [varlist] using “[path\]filename” [, clear] 

La seule condition est qu’il faut qu’il n’y ait qu’une seule observation par ligne. 

Autrement, il faudra utiliser l’instruction infile. 

L’instruction insheet reconnaît automatiquement si les données sont séparées par des 

tabulations ou des virgules. 

Elle détecte aussi le nom des variables. Il ne faut donc pas les préciser. 

Par défaut, en l’absence de noms de variables, Stata les nommera var1, var2, etc... 

Voici deux exemples : 

insheet using example1_tab.txt 

Ici, on doit préciser les noms des variables, car la base de données n’en contient pas. 

insheet idnum gender age educ income using example1_comma.txt 

8.2 Les fichiers dont les valeurs sont délimitées par des espaces 

infile varlist using “[path\]filename” [if exp] [in range] [, 

clear] 

Ici, il faut absolument fournir les noms des variables, car la base de données ne peut 

contenir le nom des variables sur la première ligne. 

Dans la base de données, les variables en texte (string variable) doivent être entre 

guillemets si elles contiennent des espaces. 

Une observation prend au minimum une ligne, peut-être plus, mais il n’y a jamais plus 

d’une observation par ligne. 

L’instruction infile peut aussi gérer des valeurs séparées par des tabulations ou des 

virgules, mais insheet est préférable. 

Voir help infile pour plus de détails. 

39

Par exemple, on aurait ici : 

infile idnum str1 gender age educ income using example1_free.txt 

str1 spéficie que la variable gender est une variable alphanumérique d’un seul 

caractère (string variable with # character). Voir help datatypes pour plus de détails. 

8.3 Les fichiers en format fixe 

Dans ce type de fichier, rien ne sépare les données, mais chacune des informations est 

toujours au même endroit pour chaque ligne. 

Il faut dire à Stata où commence chacune des variables. Voir help infix pour plus de 

détails. 

infix specifications using “[path\]filename” [if exp] [in range] 

[, clear] 

Par exemple, on aurait ici: 

infix idnum 1-3 str1 gender 4 age 5-6 educ 7-8 income 9-13 using 

example1_fixed.txt 

8.4 Un exemple en format fixe à partir d’un fichier SPSS 

(voir l’annexe 1 pour le do-file complet) 

Sur le site Web du CREPUQ (Conférence des recteurs et des principaux des universités 

du Québec), vous avez une foule de bases de données disponibles dont l’EDTR pour les 

années 1998 à 2002. 2 Par contre, elles ne sont offertes qu’en SAS et SPSS. 

1. Ouvrir le fichier d’instructions SPSS 

ec2002pr.lay avec WordPad 

2. Dans le do-file, faire un copier coller de la 

liste des variables. 

3. Enlever les parenthèses après les noms des 

variables et les chiffres pour ne garder que les 

numéros de lignes. 

4. Inscrire avant le début des variables : 

clear 

set mem 300m 

#delimit ; 

infix 

5. Télécharger le fichier texte *.dat 

http://sherlock.bib.umontreal.ca/ENQ- 

10414/data/slid2002pr-dat.zip 

2 http://sherlock.crepuq.qc.ca/cgi-bin/sherlock.pl?langue=F;action=LAE;region=Canada;region=Autres 

40

Enregistrer le fichier dans le répertoire de travail sous EC2002PR.dat 

6. À la fin, inscrire le nom du fichier texte : 

using EC2002PR.dat; 

41

Annexe 1 – Exemple d’un fichier fixe à partir d’un fichier SPSS 

clear 

set mem 300m 

#delimit ; 

infix 

pucpid26 1 - 7 

puchid25 8 - 14 

d31fam26 15 - 16 

d31cf26 17 - 18 

year99 19 - 22 

icswt26 23 - 32 

ecage26 33 - 35 

ecsex99 36 - 36 

ecyob26 37 - 40 

marst26 41 - 42 

mjacg26 43 - 43 

immst15 44 - 44 

yrimmg26 45 - 45 

disabs26 46 - 46 

pvreg25 47 - 48 

uszga25 49 - 49 

hhsz25 50 - 51 

HHCOMP25 52 - 52 

dwltyp25 53 - 53 

dwtenr25 54 - 54 

repa25 55 - 55 

suit25 56 - 56 

multj28 57 - 57 

nbjbs28 58 - 59 

alfst28 60 - 61 

ml01v28 62 - 63 

ml02v28 64 - 65 

ml03v28 66 - 67 

ml04v28 68 - 69 

ml05v28 70 - 71 

ml06v28 72 - 73 

ml07v28 74 - 75 

ml08v28 76 - 77 

ml09v28 78 - 79 

ml10v28 80 - 81 

ml11v28 82 - 83 

ml12v28 84 - 85 

wksem28 86 - 87 

wksnlf28 88 - 89 

wksuem28 90 - 91 

fpdwk28 92 - 92 

fsein28 93 - 93 

fseui28 94 - 94 

alhrp28 95 - 98 

mtlswk28 99 - 101 

scsum28 102 - 103 

cmphrw28 104 - 109 

rcvcmp28 110 - 110 

yrxfte11 111 - 112 

jobdur1 113 - 115 

clwkr1 116 - 117 

fllprt1 118 - 118 

42

eaisc1 119 - 120 

reawpt1 121 - 122 

scdtyp1 123 - 124 

tothrp1 125 - 128 

typpt1 129 - 129 

wkhm1 130 - 130 

hrwkhm1 131 - 135 

s91g2e6 136 - 137 

imphwe1 138 - 143 

penpln1 144 - 144 

uncoll1 145 - 145 

muloc10 146 - 146 

nai3g10 147 - 148 

nbema10 149 - 149 

nbempl1 150 - 150 

pubpv10 151 - 151 

alimo42 152 - 159 

alip42 160 - 167 

atinc42 168 - 175 

capgn42 176 - 183 

ccar42 184 - 191 

chfed42 192 - 199 

chprv42 200 - 207 

chtxb42 208 - 215 

cpqpp42 216 - 223 

cqpc42 224 - 231 

earng42 232 - 239 

eipr42 240 - 247 

fditx42 248 - 255 

fmse42 256 - 263 

gstxc42 264 - 271 

gtr42 272 - 279 

inctx42 280 - 287 

inva42 288 - 295 

majri42 296 - 297 

mbinc42 298 - 305 

medx42 306 - 313 

mtinc42 314 - 321 

nfmse42 322 - 329 

oasgi42 330 - 337 

ottxm42 338 - 345 

pen42 346 - 353 

phpr42 354 - 361 

pvitx42 362 - 369 

pvtxc42 370 - 377 

rppc42 378 - 385 

rspwi42 386 - 393 

sapis42 394 - 401 

semp42 402 - 409 

ttinc42 410 - 417 

udpd42 418 - 425 

uiben42 426 - 433 

wgsal42 434 - 441 

wkrcp42 442 - 449 

atbus20 450 - 450 

atcc20 451 - 451 

atcegp20 452 - 452 

atelhi20 453 – 453 

attrd20 454 - 454 

atuniv20 455 - 455 

43

cmphi20 456 - 456 

fllprt20 457 - 457 

rccoll20 458 - 458 

rcuniv20 459 - 459 

studtf26 460 - 460 

cmphi18 461 - 461 

dgcoll18 462 - 462 

dguniv18 463 - 463 

encoll18 464 - 464 

enuniv18 465 - 465 

hleveg18 466 - 467 

yrcoll18 468 - 471 

yrelhi18 472 - 475 

yrpsec18 476 - 479 

yrrnug18 480 - 481 

yrrung18 482 - 483 

yrschl18 484 - 487 

yruniv18 488 - 491 

using EC2002PR.dat; 

44

Annexe 2 – Exemple de fusion d’un fichier 

clear 

set mem 300m 

use “edtr2002 personnes.dta” 

* Creation des variables 

g echantillon=(earng42

BIBLIOGRAPHIE 

Hamilton, Lawrence C. 2006. Statistics with Stata. Toronto: Thomson Brooks/Cole, 

408 p. 

Hébert, Benoît-Paul. 2003. Introduction to Stata. Montréal: CIED / CÉETUM / CIQSS, 

30 p. 

Ouellet, Estelle avec l’apport d’Isabelle Belley-Ferris et de Simon Leblond. 2005. Guide 

d’économétrie appliquée pour Stata pour ECN 3950 et FAS 3900. Montréal : 

Université de Montréal, 68 p. 

(30 

mai 2007). 

Stock, James H. et Mark W. Watson. 2003. Introduction to Econometrics. Montréal: 

Addison Wesley, 696 p. 

OUVRAGES D’INTRODUCTION À STATA 

Acock, Alan C. 2006. A Gentle Introduciton to Stata. College Station TX: Stata Press. 

289 p. 

Kohler, Ulrich and Frauke Kreuter. 2005. Data Analysis Using Stata. College Station TX: 

Stata Press. 378 p. 

46

UNIVERSIT DU QUBEC MONTRAL - Laboratoire d'études de la ...

Create successful ePaper yourself

Delete template?

Save as template?