Como podem ser analisados dados pareados de ... - IESC/UFRJ

cadernos 

Saúde Coletiva 

Relacionamento de Bases 

de Dados em Saúde 

EDITORES CONVIDADOS 

Claudia Medina Coeli 

Kenneth Rochel de Camargo Jr. 

NESC • UFRJ

Catalogação na fonte – Biblioteca do CCS / UFRJ 

Cadernos Saúde Coletiva / Universidade Federal do Rio de Janeiro, 

Núcleo de Estudos de Saúde Coletiva, v.XIV, n.2 (abr . jun 2006). 

Rio de Janeiro: UFRJ/NESC, 1987-. 

Trimestral 

ISSN 1414-462X 

1.Saúde Pública - Periódicos. I I.Núcleo de Estudos de Saúde Coletiva/UFRJ.

COMO PODEM SER ANALISADOS DADOS PAREADOS DE FORMA PROBABILÍSTICA NA 

PRESENÇA DE INCERTEZA? UM EXERCÍCIO CONTRASTANDO QUATRO PROCEDIMENTOS 

How should matched data be analysed under uncertainty? A comparison 

of four approaches. 

Carla Jorge Machado 1 

RESUMO 

Introdução: O relacionamento probabilístico de registros vem sendo utilizado na 

pesquisa em saúde, mas a análise de dados pareados na presença de incerteza é algo 

pouco explorado na literatura. Métodos: Os arquivos de óbitos neonatais e de nascidos 

vivos nos estados de Santa Catarina e Rio Grande do Norte, coortes de 1999, foram 

pareados entre si, em cada estado. Gerou-se bancos de dados após o pareamento e 

quatro procedimentos foram implementados para análise. Um modelo de regressão 

logística binária (variável dependente como o óbito no período neonatal e idade da 

mãe como independente) foi utilizado. Os procedimentos comparados foram (a) utilizar 

apenas os registros pareados univocamente; (b) ponderar os pares formados, de acordo 

com o grau de certeza do pareamento; (c) selecionar aleatoriamente um registro de 

nascimento (DN) para cada óbito (DO) no caso de não haver relação unívoca e repetir 

esse experimento adicionais 99 vezes; (d) analisar todos os melhores pares formados, 

sem distinção quanto ao grau de certeza do pareamento. Resultados: O procedimento 

(a) revelou intervalos de confiança mais abrangentes mas, em geral, chegou-se a 

resultados muito semelhantes pelos quatro métodos. Conclusões: O procedimento (b) 

possui vantagens sobre os demais e é mais aceitável na análise de dados pareados. 

PALAVRAS-CHAVE 

Relacionamento probabilístico de registros, bases de dados, óbito neonatal 

ABSTRACT 

Background: Probabilistic record linkage has been used in health research. Four different 

approaches to conduct analysis of a probabilistically matched file, under uncertainty, 

were studied. Methods: A file of live births from the States of Santa Catarina and Rio 

Grande do Norte, 1999, were matched to their respective files of neonatal deaths from 

the same birth cohorts. Four approaches to analyse matched datasets are presented. 

Logistic regression with the dependent variable as the presence of neonatal death and 

the independent variable as maternal age was used. Approaches compared were, (a) 

giving a weight to each record in the matched file, inversely proportional to the 

number of times the death record appeared in the matched file and a full weight to the 

remaining live births; (b) using only records that achieved a one-to-one match and the 

remaining live births; (c) randomly selecting one death record from each set of multiples 

matches and the remaining live births; (d) analysing all matches, giving a full weight 

1 

Ph.D. Professora Adjunta do Departamento de Demografia/FACE/UFMG. End.: Av. Augusto de Lima 

1376/ sl 908 - Belo Horizonte - MG - CEP: 30190-003 - e-mails: carla@cedeplar.ufmg.br, 

cjmachado@terra.com.br, cmachado@jhsph.edu 

C ADERNOS SAÚDE COLETIVA, RIO DE JANEIRO, 14 (2): 233 - 250, 2006 – 233

C ARLA JORGE MACHADO 

to every record. Results: Application of (a) showed wider confidence intervals, reflecting 

smaller samples sizes but, in general, the approaches yielded similar results. Conclusions: 

The approach (a) seems to be more acceptable for analysis of matched files. 

KEY WORDS 

Probabilistic record linkage, database, neonatal death 

1. INTRODUÇÃO 

Com o objetivo de aumentar o número de informações disponíveis sobre o 

que se deseja estudar, ou para corrigir dados de um banco de dados, informações 

de dois bancos de dados diferentes podem ser combinadas, freqüentemente através 

de procedimentos de relacionamento ou pareamento de registros (Lavallée & 

Caron, 2001). O relacionamento de registros é feito através da comparação de 

variáveis comuns aos dois bancos de dados (também denominadas identificadores), 

as quais devem ser comparadas. Estas variáveis devem ser, além de comuns, confiáveis 

e de boa qualidade, para que o par formado e julgado pertencente à mesma 

pessoa ou à mesma entidade seja obtido com a menor chance possível de erros. 

Os procedimentos de relacionamento de registros podem ser determinísticos, 

probabilísticos ou uma combinação de ambos os métodos. O procedimento 

determinístico relaciona pares de registros com base na concordância exata de 

identificadores; já o relacionamento probabilístico utiliza a probabilidade a fim de 

determinar se um par de registros se refere ao mesmo indivíduo. O relacionamento 

determinístico pode ser feito se um identificador único e confiável existir 

(Martikainen et al., 2001). Além disso, caso exista uma quantidade suficiente 

de informações sobre os indivíduos em dois bancos de dados, estas informações 

(ou identificadores mais gerais, não únicos), em seu conjunto, podem, de forma 

única e precisa, identificar um indivíduo como sendo o mesmo em dois bancos de 

dados distintos. No entanto, uma crítica às regras determinísticas é o fato de que 

podem não refletir adequadamente a incerteza possível para pares potenciais 

(Scheuren, 1999). Exemplificando, ao simplesmente contar as concordâncias 

existentes entre identificadores, pode-se, por exemplo, obter dois pares potenciais 

formados com uma concordância cada. Imagine-se que se deve selecionar um 

destes pares sendo que, para um, há concordância na variável sexo e discordância 

no nome do indivíduo; para o outro, há discordância em sexo e concordância em 

nome. Não há, teoricamente, como resolver a questão, pois o relacionamento 

determinístico não permite que sejam feitas ponderações diferenciadas aos tipos de 

concordâncias (e discordâncias) encontradas. Parece razoável, então, utilizar 

métodos que possam ponderar adequadamente a informação contida nos 

identificadores utilizados para o relacionamento, permitindo que possíveis erros 

contidos nos identificadores (como erros de digitação, erro de declaração) além 

234 – CADERNOS SAÚDE COLETIVA, RIO DE JANEIRO, 14 (2): 233 - 250, 2006

C OMO PODEM SER ANALISADOS DADOS PAREADOS DE FORMA PROBABILÍSTICA 

NA PRESENÇA DE INCERTEZA? UM EXERCÍCIO CONTRASTANDO QUATRO PROCEDIMENTOS 

do grau de completude do preenchimento (ou declaração) de um dado identificador 

e do seu grau de especificidade (ou o quão discriminante é o identificador), possam 

ser um elemento que seja, deliberadamente, considerado no cômputo dos pesos de 

pareamento. No caso exemplificado acima, pareceria mais lógico selecionar como 

correto o par com nome concordante, pois nome é muito mais específico e mais 

definidor do que sexo (supondo, hipoteticamente, qualidade igual do registro das 

duas variáveis). Assim, quando não há informação confiável, ou há um número 

insuficiente de identificadores, ou por outras razões ligadas ao tipo de identificador 

utilizado, o relacionamento probabilístico de registros é o método indicado. 

Considera-se que as idéias seminais na formulação do relacionamento 

probabilístico são de Howard Newvombe (Newcombe et al., 1959; Winkler, 1999; 

Blakely et al., 2002). Em primeiro lugar, este pesquisador observou que a freqüência 

de ocorrência de uma característica entre pares verdadeiros (pares que de fato 

pertencem ao mesmo indivíduo) e entre pares falsos poderia ser utilizada para 

computar um escore (ou peso) de pareamento. Também observou que o peso de 

pareamento atribuído de forma individual a diferentes identificadores, em caso 

de concordância, ou de discordância, deveria ser computado. Os pesos de 

pareamento são construídos de tal forma que, para cada identificador, define-se 

a probabilidade m do identificador concordar entre os dois registros, dado que 

se trata de par verdadeiro, e a probabilidade u do identificador concordar em 

caso de par falso. Da mesma forma, pode-se definir (1 – m) como a probabilidade 

de discordância do identificador entre dois registros, uma vez que se trata de par 

verdadeiro, enquanto (1 – u) representa a probabilidade de o campo discordar, 

no caso de par falso. Com base nestas probabilidades são construídos dois fatores 

de ponderação: um, para o caso de concordância, e outro, para o caso de 

discordância. Ou seja, compara-se o identificador do primeiro registro com o 

do segundo registro e, se concordarem, aplica-se o fator de ponderação de 

concordância e, em caso contrário, o de discordância. O fator de ponderação de 

concordância é calculado como o logaritmo de base 2 da razão de verossimilhança 

entre as probabilidades m e u e o de discordância como o logaritmo de base 2 da 

razão de verossimilhança entre as probabilidades (1 – m) e (1 – u). O escore total 

de determinado par é obtido a partir da soma dos fatores de ponderação atribuídos 

após a comparação de cada identificador (Winkler, 1999). Espera-se que m seja 

maior que u, de tal forma que o fator de concordância contribua positivamente para 

o escore final, enquanto o fator de discordância contribua negativamente (Camargo 

Jr & Coeli, 2000). Pares com escores mais elevados, além de um certo valor de 

escore geral (ou limiar), seriam considerados pares verdadeiros. Fellegi e Sunter 

(1969), baseados nas primeiras idéias de Newcombe, introduziram os fundamentos 

matemáticos e estatísticos para o relacionamento probabilístico de registros da 



forma como é freqüentemente utilizado até os dias de hoje. A metodologia 

formulada por estes autores pode ser resumida da seguinte forma: em primeiro 

lugar, utilizando conceitos estatísticos, os autores demonstraram que, para que se 

pudessem somar os escores individuais de pareamento de cada identificador, estes 

deveriam ser estatisticamente independentes; em segundo lugar, argumentaram 

que nem sempre é possível considerar um par formado, inequivocamente, como 

um par falso ou verdadeiro e, desta forma, uma terceira categoria, a de pares 

possíveis ou potenciais, deveria ser considerada na classificação de pares. Ou seja, 

pares abaixo de um certo escore limiar geral, e acima de um outro limiar geral 

deveriam ser manualmente revistos (Scheuren & Young, 1999). Em terceiro lugar, 

os autores utilizaram a teoria de teste de hipótese e definiram que existem probabilidades 

de erro envolvidas na decisão de se classificar um par como um par verdadeiro 

ou falso. Finalmente, reconheceram que um mecanismo era necessário na comparação 

de dois bancos de dados, com o objetivo de se evitar que todos os registros 

de um banco de dados fossem confrontados com todos outros registros do segundo 

banco, através da exigência de que, para que os registros fossem comparáveis, 

teriam que concordar exatamente em uma determinada variável. Esse mecanismo 

é chamado de blocagem e nada mais é do que a partição estatística, ou uma mera 

divisão dos espaços a serem comparados. Esta divisão deve ser feita nos dois 

bancos de dados, cujos registros devem ser pareados entre si. Além destes 

postulados básicos que constituem a idéia geral do relacionamento probabilístico, 

observa-se que, se um indivíduo em um banco de dados é representado por 

apenas um outro registro em um outro banco de dados o pareamento probabilístico 

se torna uma tarefa menos complexa (Newcombe et al., 1995; Kendrick et al., 

1998; MacLeod et al., 1998). Nestes casos, uma vez que um par tenha sido formado 

e considerado o melhor (mais provável de ser correto) com base no maior escore 

geral de pareamento, considera-se o processo de procura como terminado para 

ambos os registros que formaram o par. Assim, o conhecimento prévio desta 

relação unívoca facilita o pareamento probabilístico. No entanto, podem ainda 

existir pares considerados incertos, pois pode haver, para um determinado registro, 

mais de um par possível, e esse conjunto de pares necessitaria de revisão manual, 

o que é viável quando se possuem bancos de dados de tamanho moderado, mas 

difícil no caso de uma enorme quantidade de pares. Os pares que necessitam de 

revisão manual englobam pares errôneos. Pares errôneos seriam aqueles formados 

pela combinação de um registro em um banco de dados com outro registro em 

outro banco de dados que, de fato, não correspondem ao mesmo indivíduo. 

Poderiam surgir mais comumente, quando se tem ausência de informações para 

um indivíduo em um ou outro banco de dados (dados não declarados), o que 

torna o relacionamento mais impreciso, por ser baseado em um menor número 




de identificadores. Isso causa problemas na análise em diversas áreas de estudo. 

No âmbito da pesquisa em saúde infantil ou neonatal, pares errôneos podem 

levar a uma subestimação da verdadeira relação entre, por exemplo, o óbito 

neonatal e uma variável fortemente associada com a morte no período neonatal. 

Um exemplo de variável seria a idade da mãe. Com base na literatura, pode-se 

esperar que um recém-nascido que sobreviveu ao período neonatal tenha maior 

chance de ser filho de mães entre as idades 20 e 40 anos comparativamente aos 

recém-nascidos falecidos no período neonatal (Salihu et al., 2004; Sina et al., 2003; 

Jacobsson et al., 2004; Machado, 2002). Logo, intuitivamente, a verdadeira 

associação entre idade materna e mortalidade neonatal estaria subestimada. Deve-se 

ressaltar que isso acontece nas situações de pares falso-positivos em que o erro 

não varia segundo os níveis da variável de exposição (erros não-informativos). 

Para erros informativos e erros falso-negativos (ou seja, para medidas de razão), o 

viés pode ser em qualquer direção. Assim, o ideal seria obter uma estimativa 

ajustada da forte associação entre o óbito neonatal e a idade da mãe, a qual fosse 

o menos possível afetada por pareamentos incorretos (Scheuren & Winkler, 1993). 

Neste trabalho, são propostos quatro procedimentos que permitiriam gerar este 

estimador, sendo que um deles explicitamente incorpora pareamentos incorretos 

na análise, sendo então considerado o pior cenário possível para comparação. 

Este trabalho justifica-se pelo fato de não haver, ainda, uma forma estabelecida 

de se trabalhar com dados pareados quando se sabe que há pareamentos incorretos 

e não há como (ou não se deseja) revisar manualmente os pareamentos possíveis. 

Dentre os motivos desta impossibilidade, pode ser destacada a questão da quantidade 

de pares formados a serem revisados. De fato, lidar com os pareamentos “não 

solucionados” de forma automática é uma área de pesquisa considerada importante 

em relacionamento de registros, especialmente no caso de pareamentos envolvendo 

grandes bancos de dados, uma vez que a intervenção manual é dispendiosa e envolve 

um tempo muito grande, além de poucos pesquisadores estarem aptos a realizar 

esta tarefa, porque a revisão manual requer um conhecimento prévio bastante 

detalhado das duas bases de dados, bem como do entendimento dos tipos de erros 

e omissões que podem ocorrer em ambas as bases de dados. 

2. MÉTODOS 

2.1. PAREAMENTO DE DADOS E SELEÇÃO DOS MELHORES PARES 

São utilizados, como exemplos, dados de óbitos da coorte de nascimentos de 

1999 dos estados de Santa Catarina e do Rio Grande do Norte a serem pareados 

com seus respectivos nascimentos das coortes dos dois estados. A escolha destes 

dois estados se justificou pelo fato de, em Santa Catarina, os bancos de dados 



serem considerados mais completos e de melhor qualidade, enquanto no Rio 

Grande do Norte os dados já serem considerados menos completos, além de mais 

sujeitos a erros (Ministério da Saúde, 2001). 

As informações utilizadas provieram do Sistema de Informações sobre Nascidos 

Vivos (SINASC) e do Sistema de Informações sobre Mortalidade (SIM) para duas 

coortes de nascimentos distintas do ano de 1999. Os documentos de coleta das 

informações destes dois sistemas são, respectivamente, a Declaração de Nascimento 

(DN) e a Declaração de Óbito (DO). Uma das coortes era constituída de 98.854 

nascidos vivos de mães residentes no Estado de Santa Catarina e a outra de 57.937 

nascidos vivos de mães residentes no Estado do Rio Grande do Norte; incluíram-se 

no estudo, inicialmente, todos os nascidos vivos cujas datas de nascimento estavam 

compreendidas entre 1º de janeiro de 1999 e 31 de dezembro daquele ano. Em 

seguida, foram encontrados os óbitos neonatais advindos de cada uma destas coortes 

de nascimento, selecionando (nos bancos de óbitos de residentes de Santa Catarina e 

do Rio Grande do Norte) aqueles óbitos cujas datas de nascimento das crianças de 0 

a 27 dias estavam compreendidas entre o primeiro e o último dia de 1999. Uma vez 

que nascidos no final do ano de 1999 poderiam ter morrido em 2000, foi necessário 

obterem-se os óbitos a partir dos bancos de dados de óbitos tanto referentes ao ano 

de 1999, quanto de 2000. Para Santa Catarina, obtiveram-se 1039 óbitos neonatais 

e para o Rio Grande do Norte, 876 óbitos neonatais. Procedeu-se a um relacionamento 

probabilístico entre os nascidos vivos de Santa Catarina e seus respectivos óbitos 

de menores de 28 dias; fez-se o mesmo para o caso do Rio Grande do Norte. 

Utilizou-se a primeira versão do software Reclink (Camargo Jr. & Coeli, 2000), a qual 

implementa a metodologia clássica de relacionamento probabilístico. Os escores 

de pareamento utilizados para cada variável, bem como o categorização inicial 

das variáveis para que pudessem ser comparadas, encontram-se na Tabela 1. 

Tabela 1 

Probabilidades m e u, escores individuais para concordância e discordância para cada 

variável (identificador) e escores máximo e mínimo gerais de pareamento. 

Escore geral de pareamento para concordância total (escore máximo) 14,6 

Escore geral de pareamento para discordância total (escore mínimo) -17,2 




Nota-se que o maior escore para concordância foi o relativo à variável 

município de residência (4,3) e o menor para a variável tipo de gravidez (0,8). Isto 

reflete principalmente o fato de a variável município de residência discriminar 

muito mais do que a variável tipo de gravidez: nota-se, por exemplo, que enquanto 

há 293 municípios em Santa Catarina (correspondendo a 293 valores 

ou níveis da variável município), há apenas dois níveis para a variável tipo de 

gravidez, sendo que a maior parte dos recém-nascidos são não-gemelares. No 

caso da discordância, observa-se que discordância em município conduz a um 

escore de 4,6 negativo (o mais negativo de todos), e a discordância em peso ao 

nascer conduz ao escore menos negativo de todos (1,6 negativo), revelando, 

principalmente, que uma discordância em município, uma variável menos sujeita 

a erros, é mais séria do que uma discordância em peso ao nascer, mais sujeita à 

imprecisões de identificação e codificação. 

No caso deste estudo, valores não declarados, ao serem comparados, em 

quaisquer identificadores, foram considerados concordantes entre si. 

Segundo a Tabela 1, também se observa que o escore máximo de pareamento 

obtido foi 14,6 (concordância em todos os identificadores) e o menor escore de 

pareamento foi de 17,2 negativos (discordância em todos os identificadores). 

Cabe observar que é necessário selecionar uma variável como sendo a variável 

de blocagem, ou seja, é necessário que seja escolhida uma variável de partição do 

banco de dados. Os pares só são considerados como pares possíveis caso estejam 

numa mesma partição ou bloco. Considerou-se como variável de blocagem a 

data de nascimento do recém-nascido. 

No caso deste estudo, sabe-se que uma relação unívoca é esperada entre dois 

registros em cada conjunto de dois arquivos pareados. Assim, assumiram-se como 

pares verdadeiros aqueles com os mais elevados escores de pareamento total e 

com relação unívoca. Desta forma, não estabelecemos um limiar a partir do qual 

declararíamos os pares como possíveis. 

Ainda que se tenham usado seis variáveis no pareamento, isso não se revelou 

suficiente para que se encontrasse uma relação unívoca e, por isso, mais de uma 

Declaração de Nascimento (DN) foi aceita para cada Declaração de Óbito 

(DO). Isto aconteceu por uma série de razões. Em primeiro lugar, havia um 

número elevado de DNs que poderiam ser pareadas com cada DO. Em segundo 

lugar, a elevada proporção de dados não declarados, especialmente nas DOs, 

tal como peso ao nascer (23,5% e 41,6% em SC e no RN, respectivamente), tipo de 

parto (23,4% em ambos os estados), tipo de gravidez (24,3% e 22,85, em SC e 

no RN, respectivamente ) e idade da mãe (30,7% e 38,6%, em SC e no RN, 

respectivamente), o que levou ao aumento de imprecisão do pareamento. 

Finalmente, algumas variáveis não possuíam poder discriminatório elevado, 



tal como tipo de gravidez, pois, em ambas as populações estudadas, mais de 98% 

de todos os nascimentos eram não-múltiplos. 

Cabe salientar que, segundo critério estabelecido para blocagem, 70 óbitos 

neonatais no caso de Santa Catarina e 86 no caso do Rio Grande do Norte não 

obtiveram concordância exata em data de nascimento com qualquer registro de 

nascimento e foram excluídos da análise (7,2% e 9,8% do total de óbitos em cada 

estado, respectivamente). 

2.2. ANÁLISE DOS DADOS PAREADOS 

Neste estudo quatro procedimentos foram implementados na análise dos 

dados pareados, o que implica dizer que quatro bancos de dados foram gerados, 

de formas diferentes, e nestes diferentes bancos implementaram-se procedimentos 

de análise que divergiram entre si. Em primeiro lugar, utilizaram-se apenas pares 

que possuíam relação unívoca e que, além disso, possuíam o maior peso, os quais 

considerou-se serem pares verdadeiros. É importante frisar essas duas condições, 

pois poderia haver casos no qual uma DO formava um par com uma DN com 

escore superior a um outro par formado para a mesma DO, mas com outra DN. 

Logo, seria selecionado como par correto o primeiro par. Também foram 

inutilizados os pares incertos, formados por aquelas DOs pareadas com mais de 

uma DN. Pares para os quais verificou-se que uma mesma DN encontrava-se 

pareada com mais de uma DO também foram inutilizados. Assim, o arquivo final 

para análise consistiu dos pares com relação unívoca além das DNs que não se 

haviam envolvido em qualquer pareamento, mantendo-se a variável idade da 

mãe advinda do banco de dados de nascidos vivos para análise. 

Em segundo lugar, foram utilizados todos os melhores pares na análise e cada 

par formado foi ponderado. O critério para se definir o melhor par foi baseado 

no maior escore geral de pareamento obtido tanto para uma DO quanto para 

uma DN. O peso dado a cada par procurou dimensionar a certeza de que o par 

era formado por uma DO e por uma DN que representavam o mesmo recémnascido. 

Assumiu-se que o grau de certeza estava inversamente relacionado ao 

número de DNs existentes para cada DO. As DOs que se ligavam a poucas DNs 

receberam ponderações maiores na análise, refletindo a menor incerteza em 

relação àquele par, em relação aos pares formados por DOs que se ligavam a 

muitas DNs. O peso dado na análise dos dados correspondeu ao inverso do 

número de vezes que um óbito apareceu no arquivo pareado, variando de bem 

próximo de zero (pares formados por uma DO ligada a muitas DNs) a um (uma 

única DN ligada a uma DO). Após a obtenção do arquivo pareado, procedeu-se 

à junção deste com o arquivo original de nascidos vivos e a cada DN a qual não 

tivesse sido pareada com qualquer DO (supostamente aquelas DNs pertencentes 




a recém-nascidos não falecidos no período neonatal) atribuiu-se o maior peso, 

equivalente a uma unidade. Foi mantida também a informação sobre idade da 

mãe proveniente das DNs. Após obtenção deste arquivo, para que se obtivesse o 

arquivo final, foi necessário encontrar se acaso havia qualquer DN pareada com 

mais de uma DO e eliminar esses pares. Isto é importante pois somar os pesos desses 

pares estaria incorreto dado que, teoricamente, poder-se-ia obter um peso acima 

de um para uma DN sobre a qual ter-se-ia incerteza sobre a ocorrência do óbito. 

No caso mais simples, se ocorre uma DN pareada com duas DOs e estas por sua 

vez não se pareiam com qualquer outra DN, seria dado o peso de uma unidade a um 

par para o qual existe incerteza se a DN é de fato a “verdadeira” para cada DO. 

Em terceiro lugar, utilizou-se o banco de dados o qual foi ponderado (descrito 

imediatamente acima) e selecionou-se aleatoriamente uma DN do conjunto de 

possíveis DNs, para cada DO. Logo, num exemplo hipotético, se houvesse a 

“DO número 1” cujos melhores pares fossem aqueles advindos do pareamento 

com as DNs de números 2, 3 e 4, poderia ser selecionado o par “DO número 1 

com DN número 3”, de forma aleatória e os pares “DO número 1 com DN 

número 2” e “DO número 1 com DN número 4” seriam retirados da análise. 

Logo, o arquivo de pares foi formado pelos pares unívocos (para os quais a 

seleção aleatória resultaria sempre no mesmo par) e pelos pares selecionados de 

forma aleatória, no caso de haver mais de uma DN para cada DO. O arquivo 

final foi formado por esses pares e pelas DNs as quais não se envolveram em 

pareamento com quaisquer DOs (supostamente, de nascidos vivos que não faleceram 

no período neonatal). No exemplo mencionado acima, as DNs número 2 e número 

4 seriam retiradas da análise, ou seja, não estariam incluídas no arquivo final 

como DNs de crianças que não faleceram. Dado que neste método a seleção 

aleatória pode conduzir a resultados diferenciados caso a análise seja refeita, 

repetiu-se o procedimento 99 vezes adicionais e 100 bancos de dados foram 

gerados, com o objetivo de se obter um resultado médio das 100 rodadas. Em cada 

um dos 100 arquivos finais, a informação sobre a idade da mãe da DN foi mantida. 

Finalmente, no quarto procedimento, o arquivo final consistiu de todos os 

melhores pares obtidos além das DNs que não foram pareadas com qualquer DO 

e a análise não foi feita de forma ponderada, o que equivale dizer que todas as 

observações na análise receberam peso igual. Este procedimento foi utilizado 

como o pior cenário possível que se poderia obter, pois, claramente, considerou-se 

que muitas DNs poderiam estar vinculadas a uma única DO. Como em todos os 

demais casos, a informação sobre idade da mãe advinda do arquivo de nascimento 

foi mantida na análise. 

A informação sobre a idade da mãe foi categorizada em 10 a 14, 15 a 19, 20 a 

24, 25 a 29, 30 a 34, 35 a 39 e 40 ou mais e sete variáveis indicadoras foram geradas. 



Neste estudo, um modelo de regressão logística binária múltipla foi considerado 

apropriado para modelar a variável dicotômica, óbito no período neonatal 

(a qual assumiu o valor 1) ou não (valor zero). As razões das chances obtidas, com 

seus respectivos intervalos de confiança de 95%, têm a seguinte interpretação: se 

a covariável x1 é uma variável indicadora de idade da mãe 10 a 14 anos, os 

resultados obtidos representam a chance de óbito neonatal dado que o recémnascido 

era filho de uma mãe de 10 a 14 anos, versus a chance de óbito neonatal 

dado que a idade da mãe é 25 a 29 anos (categoria de referência). 

3. RESULTADOS 

3.1. RESULTADOS DO RELACIONAMENTO PROBABILÍSTICO DE REGISTRO E SELEÇÃO 

DOS MELHORES PARES 

Com os melhores pares obtidos, quatro bancos de dados foram gerados. 

O primeiro, no caso de Santa Catarina, consistiu de 97.000 DNs que não foram 

pareadas com qualquer DO e consistiu também de 822 DOs que foram pareadas 

univocamente com uma DN. No caso do Rio Grande do Norte, estes resultados 

foram de 56.051 e 563, respectivamente. 

O segundo banco de dados foi formado pelas mesmas 97.000 DNs que não 

foram pareadas, no caso de Santa Catarina, além de todos os melhores pares 

obtidos. Alguns destes melhores pares constaram de DOs com relação unívoca 

com uma DN, mas para outras DOs esta relação não foi encontrada. Ou seja, 

tratou-se de 822 DOs com um único nascimento e de 130 DOs com múltiplas 

DNs pareadas (total de 1829 DNs para as 952 DOs). Estes valores foram de 563 

DOs com uma única DN e 219 DOs para 1319 DNs (total de 1882 DNs para as 

782 DOs), no caso do Rio Grande do Norte. A distribuição das DOs, segundo o 

número de DNs a eles pareados encontra-se na Tabela 2. 

Tabela 2 

Distribuição de DOs, de acordo com o número de DNs pareadas. 




Como se observa, a maior parte das DOs foram pareadas de forma unívoca, 

nos dois estados, mas no Rio Grande do Norte esta proporção foi inferior à de 

Santa Catarina (72% e 86,3%, respectivamente). E, em comparação à Santa 

Catarina, o Rio Grande do Norte teve sempre um número e uma proporção 

maior de DOs pareados com duas ou mais DNs. Assim, em média, os pares formados 

em Santa Catarina receberam um peso maior na análise do que os pares formados no 

Rio Grande do Norte. Cabe observar que houve pares formados excluídos nos 

dois estados. Oito pares formados foram excluídos em cada banco de dados 

devido ao fato de que uma única DN se havia pareado com mais de uma DO. 

O terceiro conjunto de banco de dados consistiu, no caso de Santa Catarina, 

das 97.000 DNs que não se parearam com quaisquer DOs, dos 822 registros de 

óbitos pareados univocamente, e das 130 DOs para as quais foi feita uma seleção 

aleatória de um único nascimento. Repetiu-se o experimento 99 vezes e 100 bancos 

de dados foram gerados, com 97.952 registros cada. No caso do Rio Grande do 

Norte, os arquivos consistiram dos 56.051 DNs não-pareadas, além das 563 

DOs pareadas univocamente e, adicionalmente, das 219 DOs para as quais foi 

selecionada de forma aleatória uma DN, ou seja, arquivos com 56.833 registros cada. 

O quarto conjunto de dados foi o utilizado no caso ponderado, mas não se 

ponderaram os pares formados de acordo com o grau de certeza. Assim, no caso 

de Santa Catarina, todos os 98.829 registros contribuíram igualmente para a 

análise e, no caso do Rio Grande do Norte, todos os 57.933 registros também 

contribuíram igualmente para a análise. 

3.2. DISTRIBUIÇÃO DOS GRUPOS DE IDADES DA MÃE EM CADA BANCO DE DADOS 

A distribuição das DNs para recém-nascidos que não faleceram no período 

neonatal (ou seja, para o qual não houve qualquer DO relacionada), por grupos 

de idade da mãe, é a mesma em todos os bancos de dados, para cada estado. 

A diferença foi encontrada na distribuição daqueles que faleceram, uma vez que 

a definição de quem faleceu ou não variou segundo procedimentos diferentes. 

Na Tabela 3 nota-se que 0,6% das DNs de recém-nascidos cujas mães tinham 

idades de 10 a 14 anos não foram pareadas com quaisquer DOs. Esta percentagem 

foi sempre inferior à percentagem relativa aos recém-nascidos considerados 

pareados, por qualquer método. Este fenômeno também foi observado no 

caso de recém-nascidos cujas mães tinham de 15 a 19 anos e acima de 34 anos, 

além daqueles para os quais a informação sobre a idade da mãe era não-declarada. 

No caso dos recém-nascidos do Rio Grande do Norte (Tabela 4), pareados por 

qualquer procedimento, observa-se que apenas no caso de recém-nascidos cujas 

mães tinham idades entre 15 a 19 anos, e para aqueles cujas mães não possuíam 

idade declarada, as percentagens foram superiores relativamente aos não-pareados. 



Tabela 3 

Distribuição das DOs segundo a idade da mãe, e por quatro procedimentos diferentes de 

definição de pares formados - Santa Catarina. 

N para DNs não pareadas: 97000; N para (a): 822; N ponderado para (b): 952; N para (c): 952; N para (d):1892. 

Tabela 4 

Distribuição dos registros segundo a idade da mãe, por status marital, e por quatro procedimentos 

diferentes de definição de pares formados - Rio Grande do Norte. 

Nota: N para recém-nascidos sobreviventes: 56051; N para (a):563; N ponderado para (b): 782; 

N para (c): 782; N para (d):1882. 

3.3. RESULTADOS DA REGRESSÃO LOGÍSTICA 

As Tabelas 5 e 6 sumarizam os resultados da regressão logística. 




Tabela 5 

Resultados da regressão logística, por quatro procedimentos, SC. Avaliação da associação 

entre faixa etária e óbito neonatal. 

Nota: N para (a): 97822; N ponderado para (b): 98829; N para (c): 97968; N para (d):98892. 

Tabela 6 

Resultados da regressão logística, por quatro procedimentos, RN. Avaliação da associação 

entre faixa etária e óbito neonatal. 

Nota: N para (a): 56614; N ponderado para (b): 57933; N para (c): 56841; N para (d):57949. 

Os resultados obtidos a partir dos bancos de dados gerados foram semelhantes, 

mas algumas diferenças puderam ser identificadas (Tabelas 5 e 6). Em primeiro 

lugar, a partir do primeiro banco de dados, no caso dos dois estados, formado 

dos pares unívocos e apenas daquelas DNs que não se parearam com qualquer 



DO (a), os intervalos de confiança gerados foram maiores, o que reflete menor 

tamanho de amostra. Além disso, os resultados obtidos com base nesse mesmo 

banco de dados revelaram as razões de chance mais afastadas de um, ou seja, a 

partir do banco que levou em conta apenas os pareamentos unívocos e os nãopareados, 

os tamanhos de efeito foram maiores, exceto para os grupos etários 

20 a 24 anos nos dois estados, e 30 a 34 anos no caso do Rio Grande do Norte. 

Cabe ainda observar que os resultados que mais se assemelharam foram os 

referentes ao banco de dados para o qual foi feita a ponderação segundo o 

grau de certeza dos melhores pares (b) e do resultado médio dos bancos de 

dados para os quais foi feita a seleção aleatória das DNs (c). 

Finalmente, nota-se que os menores tamanhos de efeito (ou seja, razões de 

chance mais próximas de um) foram obtidos quando da utilização do banco de 

dados que incluiu todos os melhores pares, independentemente se a relação era 

ou não unívoca e sem ponderar os pares de acordo com o grau de certeza (d). 

4. DISCUSSÃO 

Neste trabalho realizou-se um exercício empírico de análise de bancos 

de dados formados de pares obtidos por meio probabilístico, na presença de 

incerteza e a partir do conhecimento prévio de relação unívoca entre uma 

DO e uma DN. Os resultados quanto ao Estado de Santa Catarina parecem 

indicar que, inequivocamente, existe evidência de maior chance de óbito neonatal 

para recém-nascidos de mães de idades 10 a 14 anos e de mães sem informação 

de idade, relativamente às mães de idade 25 a 29 anos (grupo de referência). No 

caso do Rio Grande do Norte, pode-se concluir o mesmo em relação ao grupo 

de recém-nascidos de 15 a 19 anos e de mães sem informação de idade, relativamente 

ao grupo de referência de 25 a 29 anos. Esta conclusão procede, uma vez 

que mesmo utilizando um banco de dados onde todos os melhores pares contribuíram 

igualmente para a análise observou-se tanto uma maior percentagem de 

óbitos concentrados nestas idades mencionadas quanto uma maior chance de 

óbito, relativamente à categoria de referência. De fato, cabe salientar que a 

distribuição dos óbitos neonatais neste banco de dados é enviesada, sendo este 

conjunto de óbitos o que explicitamente inclui pares falsos. Assim, no caso de o 

pesquisador ter gerado os quatro resultados, entende-se que, mesmo na ausência 

de um padrão ouro que possa nos dizer se de fato chegou-se aos pares verdadeiros, 

a obtenção de um mesmo resultado geral segundo diferentes métodos é capaz de 

indicar a concentração de riscos. 

No caso de Santa Catarina, para as idades 15 a 19 anos, 35 a 39 anos e 40 

anos ou mais obteve-se maior chance de óbito relativamente às idades 25 a 29 

anos, quando foram utilizados o banco de dados composto apenas por pares unívocos, 




o composto por todos os melhores pares, mas com ponderação, e a média de 

resultados dos 100 bancos de dados cujos pares foram obtidos por seleção 

aleatória. Uma vez que estes seriam os bancos preferíveis a qualquer pesquisador, 

pelo fato de tentar controlar o número de pares falsos, pode-se dizer que esses 

resultados são indicativos de que, no Estado de Santa Catarina, recém-nascidos 

de mães com menos de 19 anos ou acima de 35 anos são, pelo menos a princípio, 

de maior chance para o óbito neonatal. Este resultado está em concordância com 

a literatura sobre o assunto (Jacobsson et al., 2004; Machado, 2002; Salihu et al., 

2004; Sina et al., 2003). 

De fato, no caso deste estudo, a vasta maioria das DOs atingiu uma relação 

unívoca com alguma DN, o que fez com que a distribuição dos pares formados 

não fosse muito diferente nos bancos utilizados, pois todos são formados pelo 

conjunto de pares unívocos. Assim, os resultados deste estudo seriam indicativos 

de como poder-se-ia proceder numa situação que se espera uma relação unívoca 

entre dois bancos de dados, com alto grau de sucesso. Neste caso, poder-se-ia 

pensar que não seria muito preocupante proceder à análise das informações, por 

algum desses métodos, ainda que se saiba que alguns pares são de fato incorretos. 

O que este estudo mostra é que é possível chegar a conclusões similares sobre as 

associações entre mortalidade neonatal e idade da mãe, ainda que possa haver 

erros em relação aos pares formados, por métodos diferentes. Ou seja, o resultado 

é relativamente robusto ao método utilizado. 

Ainda que neste caso tenham sido obtidos resultados similares, cabem algumas 

considerações sobre vantagens e desvantagens na escolha de como proceder na 

análise de dados pareados quando se espera uma relação unívoca. Utilizar um 

banco de dados para análise de dados pareados que inclua como pares formados 

apenas os melhores pares com relação unívoca não garante um resultado que 

possa ser generalizado para toda a população em estudo. De fato, desprezar 

dados não parece uma opção razoável, principalmente se é possível minimizar 

de alguma outra forma o problema da incerteza quanto aos pares formados 

(através da ponderação diferenciada segundo o grau de certeza, ou através da 

seleção aleatória). O procedimento da seleção aleatória, por sua vez, não gera 

sempre o mesmo resultado; se um pesquisador proceder à seleção aleatória, com 

o mesmo banco de dados original, o mesmo número de vezes, não há garantias de 

que seu resultado será o mesmo obtido por outro pesquisador. Assim, utilizar um 

método que leva em consideração se há ou não incertezas sobre o par formado e que 

utiliza um parâmetro para mensurar esta incerteza possui a vantagem de ser replicável. 

Por último, é importante destacar que este estudo mostra que é possível obter 

alguns resultados com base nos dados pareados, em nível populacional, mesmo na 

presença de incerteza. Não obstante, ainda há muito o que fazer no sentido de 



melhorar a qualidade de coleta, preenchimento e digitação das informações, a 

fim de que se possa realizar um pareamento o mais correto possível. Apenas assim 

será possível fazer inferências mais precisas também no âmbito individual. Além 

disso, um problema que existe e o qual este trabalho não se propôs a tratar, mas 

que merece ser ao menos ressaltado, é o sub-registro de óbitos e de nascimentos, 

especialmente nos estados do Norte e Nordeste. Assim, neste estudo, isto implicaria 

que DOs que deveriam estar contidas no banco de dados do SIM a fim de serem 

pareadas com suas respectivas DNs de fato não constavam do conjunto de DOs. 

O resultado disto, numa situação de maior sub-registro de DOs relativamente às 

DNs, é que estar-se-ia considerando DNs erroneamente como não-pareadas, ou 

seja, pertencentes a recém-nascidos que não faleceram no período neonatal. Se a 

idade da mãe estiver de fato altamente associada ao óbito neonatal no sentido 

esperado e sugerido pela literatura, mães mais jovens e mais velhas poderiam estar 

contidas no conjunto de não-pareadas, o que explicaria, pelo menos parcialmente, 

a ausência de associação significativa encontrada no Rio Grande do Norte. 

É importante ressaltar estes aspectos uma vez que, mesmo com a disponibilidade 

de dados para pareamentos, deve-se estar sempre visando ao preenchimento 

adequado e ao registro o mais completo possível das informações, de tal forma 

que se possa obter, a partir de dados pareados, o máximo em termos de conclusões 

generalizáveis para as populações em estudo. 

R EFERÊNCIAS BIBLIOGRÁFICAS 

BLAKELY, T.; WOODWARD, A.; SALMOND, C. Anonymous record linkage of 1991 census 

record and 1991-1994 mortality records. Disponível em: 

Acesso em: 3 jan. 2002. 

CAMARGO JR., K. R. ; COELI, C. M. Reclink: aplicativo para o relacionamento de 

bases de dados, implementando o método probabilistic record linkage. Cadernos 

de Saúde Pública. Rio de Janeiro, v. 16, n. 2, p. 439 - 447, 2000. 

FELLEGI, I. P.; SUNTER, I. A theory of record linkage. Journal of the American 

Statistical Association. Alexandria, v. 64, p. 1183 - 1210, 1969. 

JACOBSSON, B.; LADFORS, L.; MILSOM, I. Advanced maternal age and adverse 

perinatal outcome. Obstetrics and Gynecology. Baltimore, v. 104, n. 4, p. 727 - 733, 2004. 

KENDRICK, S. W.; DOUGLAS, M. M.; GARDNER, D.; HUCKER, D. Best-link 

matching of scottish health data sets. Methods of Information in Medicine. 

Braunschweig. v. 37, n. 1, p. 64 - 68, 1998. 




LAVALLÉE, P.; CARON, P. Estimation using the generalized weight share method: 

the case of record linkage. Survey Methodology. Ontario, v. 27, n. 2, p. 155 - 169, 2001. 

MACHADO, C. J. Early infant morbidity and infant mortality in the city of São Paulo, 

Brazil: a probabilistic record linkage approach. 2002. 354 f. Tese (Doutorado em 

Dinâmica de População) – Bloomberg School of Public Health. Johns 

Hopkins University, Baltimore. 

MACLEOD, M. C.; BRAY, C. A.; KENDRICK, S. W.; COBBE, S. M. Enhancing the 

power of record linkage involving low quality personal identifiers: use of the 

best link principle and cause of death prior likelihoods. Computers and Biomedical 

Research. New York, v. 31, n. 4, p. 257 - 270, 1998. 

MARTIKAINEN, P.; MAKELA, P.; KOSKINEN, S.; VALKONEN, T. Income differences 

in mortality: a register-based follow-up study of three million men and women. 

International Journal of Epidemiology. Oxford, v. 30, n. 6, p. 1405 - 1406, 2001. 

MINISTÉRIO DA SAÚDE. 2001. Disponível em: 

. Acesso 

em: 20 set. 2005. 

NEWCOMBE, H. B.; KENNEDY, J. M.; AXFORD, S. J.; JAMES, A. P. Automatic 

linkage of vital records. Science. Washington DC, v. 130, n. 16, 954 - 959, 1959. 

NEWCOMBE, H. B. Age-related bias in probabilistic death searches due to 

neglect of prior likelihoods. Computers and Biomedical Research. San Diego, v. 28, 

n. 2, p. 87 - 99, 1995. 

SALIHU, H. M.; EMUSU, D.; ALIYU, M. H.; KIRBY, R. S.; ALEXANDER, G. R. Low 

maternal age and neonatal survival of extremely preterm twins (20-28 weeks of 

gestation). Obstetrics and Gynecology. Baltimore, v. 103, n. 6, p. 1246 - 1254, 2004. 

SCHEUREN, F. E.; YOUNG, L. L. P. Linking health records: human rights 

concerns. International Workshop and Exposition, 1997. Proceedings. Washington 

DC, 1999, p. 404 - 426. 

SCHEUREN, F.; WINKLER, W. Regression analysis of data files that are computer 

matched-Part I. Survey Methodology. Ontario, v. 19, p. 39 - 58, 1993. 

SINA, D. E.; VALDIVIESO, B. J.; DEL PINO, L. V. Birth rates and reproductive risk 

in adolescents in Chile, 1990-1999. Revista Panamericana de Salud Publica. v. 14, n. 1, 

p. 3 - 8, 2003. 

WINKLER, W. The state of record linkage and current research problems. Disponível em: 

. Acesso em: 01 abr. 2001.

Como podem ser analisados dados pareados de ... - IESC/UFRJ

Create successful ePaper yourself

Delete template?

Save as template?