25.11.2014 Views

Como podem ser analisados dados pareados de ... - IESC/UFRJ

Como podem ser analisados dados pareados de ... - IESC/UFRJ

Como podem ser analisados dados pareados de ... - IESC/UFRJ

SHOW MORE
SHOW LESS

Create successful ePaper yourself

Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.

ca<strong>de</strong>rnos<br />

Saú<strong>de</strong> Coletiva<br />

Relacionamento <strong>de</strong> Bases<br />

<strong>de</strong> Dados em Saú<strong>de</strong><br />

EDITORES CONVIDADOS<br />

Claudia Medina Coeli<br />

Kenneth Rochel <strong>de</strong> Camargo Jr.<br />

NESC • <strong>UFRJ</strong>


Catalogação na fonte – Biblioteca do CCS / <strong>UFRJ</strong><br />

Ca<strong>de</strong>rnos Saú<strong>de</strong> Coletiva / Universida<strong>de</strong> Fe<strong>de</strong>ral do Rio <strong>de</strong> Janeiro,<br />

Núcleo <strong>de</strong> Estudos <strong>de</strong> Saú<strong>de</strong> Coletiva, v.XIV, n.2 (abr . jun 2006).<br />

Rio <strong>de</strong> Janeiro: <strong>UFRJ</strong>/NESC, 1987-.<br />

Trimestral<br />

ISSN 1414-462X<br />

1.Saú<strong>de</strong> Pública - Periódicos. I I.Núcleo <strong>de</strong> Estudos <strong>de</strong> Saú<strong>de</strong> Coletiva/<strong>UFRJ</strong>.


COMO PODEM SER ANALISADOS DADOS PAREADOS DE FORMA PROBABILÍSTICA NA<br />

PRESENÇA DE INCERTEZA? UM EXERCÍCIO CONTRASTANDO QUATRO PROCEDIMENTOS<br />

How should matched data be analysed un<strong>de</strong>r uncertainty? A comparison<br />

of four approaches.<br />

Carla Jorge Machado 1<br />

RESUMO<br />

Introdução: O relacionamento probabilístico <strong>de</strong> registros vem sendo utilizado na<br />

pesquisa em saú<strong>de</strong>, mas a análise <strong>de</strong> <strong>dados</strong> <strong>pareados</strong> na presença <strong>de</strong> incerteza é algo<br />

pouco explorado na literatura. Métodos: Os arquivos <strong>de</strong> óbitos neonatais e <strong>de</strong> nascidos<br />

vivos nos estados <strong>de</strong> Santa Catarina e Rio Gran<strong>de</strong> do Norte, coortes <strong>de</strong> 1999, foram<br />

<strong>pareados</strong> entre si, em cada estado. Gerou-se bancos <strong>de</strong> <strong>dados</strong> após o pareamento e<br />

quatro procedimentos foram implementados para análise. Um mo<strong>de</strong>lo <strong>de</strong> regressão<br />

logística binária (variável <strong>de</strong>pen<strong>de</strong>nte como o óbito no período neonatal e ida<strong>de</strong> da<br />

mãe como in<strong>de</strong>pen<strong>de</strong>nte) foi utilizado. Os procedimentos comparados foram (a) utilizar<br />

apenas os registros <strong>pareados</strong> univocamente; (b) pon<strong>de</strong>rar os pares formados, <strong>de</strong> acordo<br />

com o grau <strong>de</strong> certeza do pareamento; (c) selecionar aleatoriamente um registro <strong>de</strong><br />

nascimento (DN) para cada óbito (DO) no caso <strong>de</strong> não haver relação unívoca e repetir<br />

esse experimento adicionais 99 vezes; (d) analisar todos os melhores pares formados,<br />

sem distinção quanto ao grau <strong>de</strong> certeza do pareamento. Resultados: O procedimento<br />

(a) revelou intervalos <strong>de</strong> confiança mais abrangentes mas, em geral, chegou-se a<br />

resultados muito semelhantes pelos quatro métodos. Conclusões: O procedimento (b)<br />

possui vantagens sobre os <strong>de</strong>mais e é mais aceitável na análise <strong>de</strong> <strong>dados</strong> <strong>pareados</strong>.<br />

PALAVRAS-CHAVE<br />

Relacionamento probabilístico <strong>de</strong> registros, bases <strong>de</strong> <strong>dados</strong>, óbito neonatal<br />

ABSTRACT<br />

Background: Probabilistic record linkage has been used in health research. Four different<br />

approaches to conduct analysis of a probabilistically matched file, un<strong>de</strong>r uncertainty,<br />

were studied. Methods: A file of live births from the States of Santa Catarina and Rio<br />

Gran<strong>de</strong> do Norte, 1999, were matched to their respective files of neonatal <strong>de</strong>aths from<br />

the same birth cohorts. Four approaches to analyse matched datasets are presented.<br />

Logistic regression with the <strong>de</strong>pen<strong>de</strong>nt variable as the presence of neonatal <strong>de</strong>ath and<br />

the in<strong>de</strong>pen<strong>de</strong>nt variable as maternal age was used. Approaches compared were, (a)<br />

giving a weight to each record in the matched file, inversely proportional to the<br />

number of times the <strong>de</strong>ath record appeared in the matched file and a full weight to the<br />

remaining live births; (b) using only records that achieved a one-to-one match and the<br />

remaining live births; (c) randomly selecting one <strong>de</strong>ath record from each set of multiples<br />

matches and the remaining live births; (d) analysing all matches, giving a full weight<br />

1<br />

Ph.D. Professora Adjunta do Departamento <strong>de</strong> Demografia/FACE/UFMG. End.: Av. Augusto <strong>de</strong> Lima<br />

1376/ sl 908 - Belo Horizonte - MG - CEP: 30190-003 - e-mails: carla@ce<strong>de</strong>plar.ufmg.br,<br />

cjmachado@terra.com.br, cmachado@jhsph.edu<br />

C ADERNOS SAÚDE COLETIVA, RIO DE JANEIRO, 14 (2): 233 - 250, 2006 – 233


C ARLA JORGE MACHADO<br />

to every record. Results: Application of (a) showed wi<strong>de</strong>r confi<strong>de</strong>nce intervals, reflecting<br />

smaller samples sizes but, in general, the approaches yiel<strong>de</strong>d similar results. Conclusions:<br />

The approach (a) seems to be more acceptable for analysis of matched files.<br />

KEY WORDS<br />

Probabilistic record linkage, database, neonatal <strong>de</strong>ath<br />

1. INTRODUÇÃO<br />

Com o objetivo <strong>de</strong> aumentar o número <strong>de</strong> informações disponíveis sobre o<br />

que se <strong>de</strong>seja estudar, ou para corrigir <strong>dados</strong> <strong>de</strong> um banco <strong>de</strong> <strong>dados</strong>, informações<br />

<strong>de</strong> dois bancos <strong>de</strong> <strong>dados</strong> diferentes <strong>po<strong>de</strong>m</strong> <strong>ser</strong> combinadas, freqüentemente através<br />

<strong>de</strong> procedimentos <strong>de</strong> relacionamento ou pareamento <strong>de</strong> registros (Lavallée &<br />

Caron, 2001). O relacionamento <strong>de</strong> registros é feito através da comparação <strong>de</strong><br />

variáveis comuns aos dois bancos <strong>de</strong> <strong>dados</strong> (também <strong>de</strong>nominadas i<strong>de</strong>ntificadores),<br />

as quais <strong>de</strong>vem <strong>ser</strong> comparadas. Estas variáveis <strong>de</strong>vem <strong>ser</strong>, além <strong>de</strong> comuns, confiáveis<br />

e <strong>de</strong> boa qualida<strong>de</strong>, para que o par formado e julgado pertencente à mesma<br />

pessoa ou à mesma entida<strong>de</strong> seja obtido com a menor chance possível <strong>de</strong> erros.<br />

Os procedimentos <strong>de</strong> relacionamento <strong>de</strong> registros <strong>po<strong>de</strong>m</strong> <strong>ser</strong> <strong>de</strong>terminísticos,<br />

probabilísticos ou uma combinação <strong>de</strong> ambos os métodos. O procedimento<br />

<strong>de</strong>terminístico relaciona pares <strong>de</strong> registros com base na concordância exata <strong>de</strong><br />

i<strong>de</strong>ntificadores; já o relacionamento probabilístico utiliza a probabilida<strong>de</strong> a fim <strong>de</strong><br />

<strong>de</strong>terminar se um par <strong>de</strong> registros se refere ao mesmo indivíduo. O relacionamento<br />

<strong>de</strong>terminístico po<strong>de</strong> <strong>ser</strong> feito se um i<strong>de</strong>ntificador único e confiável existir<br />

(Martikainen et al., 2001). Além disso, caso exista uma quantida<strong>de</strong> suficiente<br />

<strong>de</strong> informações sobre os indivíduos em dois bancos <strong>de</strong> <strong>dados</strong>, estas informações<br />

(ou i<strong>de</strong>ntificadores mais gerais, não únicos), em seu conjunto, <strong>po<strong>de</strong>m</strong>, <strong>de</strong> forma<br />

única e precisa, i<strong>de</strong>ntificar um indivíduo como sendo o mesmo em dois bancos <strong>de</strong><br />

<strong>dados</strong> distintos. No entanto, uma crítica às regras <strong>de</strong>terminísticas é o fato <strong>de</strong> que<br />

<strong>po<strong>de</strong>m</strong> não refletir a<strong>de</strong>quadamente a incerteza possível para pares potenciais<br />

(Scheuren, 1999). Exemplificando, ao simplesmente contar as concordâncias<br />

existentes entre i<strong>de</strong>ntificadores, po<strong>de</strong>-se, por exemplo, obter dois pares potenciais<br />

formados com uma concordância cada. Imagine-se que se <strong>de</strong>ve selecionar um<br />

<strong>de</strong>stes pares sendo que, para um, há concordância na variável sexo e discordância<br />

no nome do indivíduo; para o outro, há discordância em sexo e concordância em<br />

nome. Não há, teoricamente, como resolver a questão, pois o relacionamento<br />

<strong>de</strong>terminístico não permite que sejam feitas pon<strong>de</strong>rações diferenciadas aos tipos <strong>de</strong><br />

concordâncias (e discordâncias) encontradas. Parece razoável, então, utilizar<br />

métodos que possam pon<strong>de</strong>rar a<strong>de</strong>quadamente a informação contida nos<br />

i<strong>de</strong>ntificadores utilizados para o relacionamento, permitindo que possíveis erros<br />

contidos nos i<strong>de</strong>ntificadores (como erros <strong>de</strong> digitação, erro <strong>de</strong> <strong>de</strong>claração) além<br />

234 – CADERNOS SAÚDE COLETIVA, RIO DE JANEIRO, 14 (2): 233 - 250, 2006


C OMO PODEM SER ANALISADOS DADOS PAREADOS DE FORMA PROBABILÍSTICA<br />

NA PRESENÇA DE INCERTEZA? UM EXERCÍCIO CONTRASTANDO QUATRO PROCEDIMENTOS<br />

do grau <strong>de</strong> completu<strong>de</strong> do preenchimento (ou <strong>de</strong>claração) <strong>de</strong> um dado i<strong>de</strong>ntificador<br />

e do seu grau <strong>de</strong> especificida<strong>de</strong> (ou o quão discriminante é o i<strong>de</strong>ntificador), possam<br />

<strong>ser</strong> um elemento que seja, <strong>de</strong>liberadamente, consi<strong>de</strong>rado no cômputo dos pesos <strong>de</strong><br />

pareamento. No caso exemplificado acima, pareceria mais lógico selecionar como<br />

correto o par com nome concordante, pois nome é muito mais específico e mais<br />

<strong>de</strong>finidor do que sexo (supondo, hipoteticamente, qualida<strong>de</strong> igual do registro das<br />

duas variáveis). Assim, quando não há informação confiável, ou há um número<br />

insuficiente <strong>de</strong> i<strong>de</strong>ntificadores, ou por outras razões ligadas ao tipo <strong>de</strong> i<strong>de</strong>ntificador<br />

utilizado, o relacionamento probabilístico <strong>de</strong> registros é o método indicado.<br />

Consi<strong>de</strong>ra-se que as idéias seminais na formulação do relacionamento<br />

probabilístico são <strong>de</strong> Howard Newvombe (Newcombe et al., 1959; Winkler, 1999;<br />

Blakely et al., 2002). Em primeiro lugar, este pesquisador ob<strong>ser</strong>vou que a freqüência<br />

<strong>de</strong> ocorrência <strong>de</strong> uma característica entre pares verda<strong>de</strong>iros (pares que <strong>de</strong> fato<br />

pertencem ao mesmo indivíduo) e entre pares falsos po<strong>de</strong>ria <strong>ser</strong> utilizada para<br />

computar um escore (ou peso) <strong>de</strong> pareamento. Também ob<strong>ser</strong>vou que o peso <strong>de</strong><br />

pareamento atribuído <strong>de</strong> forma individual a diferentes i<strong>de</strong>ntificadores, em caso<br />

<strong>de</strong> concordância, ou <strong>de</strong> discordância, <strong>de</strong>veria <strong>ser</strong> computado. Os pesos <strong>de</strong><br />

pareamento são construídos <strong>de</strong> tal forma que, para cada i<strong>de</strong>ntificador, <strong>de</strong>fine-se<br />

a probabilida<strong>de</strong> m do i<strong>de</strong>ntificador concordar entre os dois registros, dado que<br />

se trata <strong>de</strong> par verda<strong>de</strong>iro, e a probabilida<strong>de</strong> u do i<strong>de</strong>ntificador concordar em<br />

caso <strong>de</strong> par falso. Da mesma forma, po<strong>de</strong>-se <strong>de</strong>finir (1 – m) como a probabilida<strong>de</strong><br />

<strong>de</strong> discordância do i<strong>de</strong>ntificador entre dois registros, uma vez que se trata <strong>de</strong> par<br />

verda<strong>de</strong>iro, enquanto (1 – u) representa a probabilida<strong>de</strong> <strong>de</strong> o campo discordar,<br />

no caso <strong>de</strong> par falso. Com base nestas probabilida<strong>de</strong>s são construídos dois fatores<br />

<strong>de</strong> pon<strong>de</strong>ração: um, para o caso <strong>de</strong> concordância, e outro, para o caso <strong>de</strong><br />

discordância. Ou seja, compara-se o i<strong>de</strong>ntificador do primeiro registro com o<br />

do segundo registro e, se concordarem, aplica-se o fator <strong>de</strong> pon<strong>de</strong>ração <strong>de</strong><br />

concordância e, em caso contrário, o <strong>de</strong> discordância. O fator <strong>de</strong> pon<strong>de</strong>ração <strong>de</strong><br />

concordância é calculado como o logaritmo <strong>de</strong> base 2 da razão <strong>de</strong> verossimilhança<br />

entre as probabilida<strong>de</strong>s m e u e o <strong>de</strong> discordância como o logaritmo <strong>de</strong> base 2 da<br />

razão <strong>de</strong> verossimilhança entre as probabilida<strong>de</strong>s (1 – m) e (1 – u). O escore total<br />

<strong>de</strong> <strong>de</strong>terminado par é obtido a partir da soma dos fatores <strong>de</strong> pon<strong>de</strong>ração atribuídos<br />

após a comparação <strong>de</strong> cada i<strong>de</strong>ntificador (Winkler, 1999). Espera-se que m seja<br />

maior que u, <strong>de</strong> tal forma que o fator <strong>de</strong> concordância contribua positivamente para<br />

o escore final, enquanto o fator <strong>de</strong> discordância contribua negativamente (Camargo<br />

Jr & Coeli, 2000). Pares com escores mais elevados, além <strong>de</strong> um certo valor <strong>de</strong><br />

escore geral (ou limiar), <strong>ser</strong>iam consi<strong>de</strong>rados pares verda<strong>de</strong>iros. Fellegi e Sunter<br />

(1969), baseados nas primeiras idéias <strong>de</strong> Newcombe, introduziram os fundamentos<br />

matemáticos e estatísticos para o relacionamento probabilístico <strong>de</strong> registros da<br />

C ADERNOS SAÚDE COLETIVA, RIO DE JANEIRO, 14 (2): 233 - 250, 2006 – 235


C ARLA JORGE MACHADO<br />

forma como é freqüentemente utilizado até os dias <strong>de</strong> hoje. A metodologia<br />

formulada por estes autores po<strong>de</strong> <strong>ser</strong> resumida da seguinte forma: em primeiro<br />

lugar, utilizando conceitos estatísticos, os autores <strong>de</strong>monstraram que, para que se<br />

pu<strong>de</strong>ssem somar os escores individuais <strong>de</strong> pareamento <strong>de</strong> cada i<strong>de</strong>ntificador, estes<br />

<strong>de</strong>veriam <strong>ser</strong> estatisticamente in<strong>de</strong>pen<strong>de</strong>ntes; em segundo lugar, argumentaram<br />

que nem sempre é possível consi<strong>de</strong>rar um par formado, inequivocamente, como<br />

um par falso ou verda<strong>de</strong>iro e, <strong>de</strong>sta forma, uma terceira categoria, a <strong>de</strong> pares<br />

possíveis ou potenciais, <strong>de</strong>veria <strong>ser</strong> consi<strong>de</strong>rada na classificação <strong>de</strong> pares. Ou seja,<br />

pares abaixo <strong>de</strong> um certo escore limiar geral, e acima <strong>de</strong> um outro limiar geral<br />

<strong>de</strong>veriam <strong>ser</strong> manualmente revistos (Scheuren & Young, 1999). Em terceiro lugar,<br />

os autores utilizaram a teoria <strong>de</strong> teste <strong>de</strong> hipótese e <strong>de</strong>finiram que existem probabilida<strong>de</strong>s<br />

<strong>de</strong> erro envolvidas na <strong>de</strong>cisão <strong>de</strong> se classificar um par como um par verda<strong>de</strong>iro<br />

ou falso. Finalmente, reconheceram que um mecanismo era necessário na comparação<br />

<strong>de</strong> dois bancos <strong>de</strong> <strong>dados</strong>, com o objetivo <strong>de</strong> se evitar que todos os registros<br />

<strong>de</strong> um banco <strong>de</strong> <strong>dados</strong> fossem confrontados com todos outros registros do segundo<br />

banco, através da exigência <strong>de</strong> que, para que os registros fossem comparáveis,<br />

teriam que concordar exatamente em uma <strong>de</strong>terminada variável. Esse mecanismo<br />

é chamado <strong>de</strong> blocagem e nada mais é do que a partição estatística, ou uma mera<br />

divisão dos espaços a <strong>ser</strong>em comparados. Esta divisão <strong>de</strong>ve <strong>ser</strong> feita nos dois<br />

bancos <strong>de</strong> <strong>dados</strong>, cujos registros <strong>de</strong>vem <strong>ser</strong> <strong>pareados</strong> entre si. Além <strong>de</strong>stes<br />

postulados básicos que constituem a idéia geral do relacionamento probabilístico,<br />

ob<strong>ser</strong>va-se que, se um indivíduo em um banco <strong>de</strong> <strong>dados</strong> é representado por<br />

apenas um outro registro em um outro banco <strong>de</strong> <strong>dados</strong> o pareamento probabilístico<br />

se torna uma tarefa menos complexa (Newcombe et al., 1995; Kendrick et al.,<br />

1998; MacLeod et al., 1998). Nestes casos, uma vez que um par tenha sido formado<br />

e consi<strong>de</strong>rado o melhor (mais provável <strong>de</strong> <strong>ser</strong> correto) com base no maior escore<br />

geral <strong>de</strong> pareamento, consi<strong>de</strong>ra-se o processo <strong>de</strong> procura como terminado para<br />

ambos os registros que formaram o par. Assim, o conhecimento prévio <strong>de</strong>sta<br />

relação unívoca facilita o pareamento probabilístico. No entanto, <strong>po<strong>de</strong>m</strong> ainda<br />

existir pares consi<strong>de</strong>rados incertos, pois po<strong>de</strong> haver, para um <strong>de</strong>terminado registro,<br />

mais <strong>de</strong> um par possível, e esse conjunto <strong>de</strong> pares necessitaria <strong>de</strong> revisão manual,<br />

o que é viável quando se possuem bancos <strong>de</strong> <strong>dados</strong> <strong>de</strong> tamanho mo<strong>de</strong>rado, mas<br />

difícil no caso <strong>de</strong> uma enorme quantida<strong>de</strong> <strong>de</strong> pares. Os pares que necessitam <strong>de</strong><br />

revisão manual englobam pares errôneos. Pares errôneos <strong>ser</strong>iam aqueles formados<br />

pela combinação <strong>de</strong> um registro em um banco <strong>de</strong> <strong>dados</strong> com outro registro em<br />

outro banco <strong>de</strong> <strong>dados</strong> que, <strong>de</strong> fato, não correspon<strong>de</strong>m ao mesmo indivíduo.<br />

Po<strong>de</strong>riam surgir mais comumente, quando se tem ausência <strong>de</strong> informações para<br />

um indivíduo em um ou outro banco <strong>de</strong> <strong>dados</strong> (<strong>dados</strong> não <strong>de</strong>clarados), o que<br />

torna o relacionamento mais impreciso, por <strong>ser</strong> baseado em um menor número<br />

236 – CADERNOS SAÚDE COLETIVA, RIO DE JANEIRO, 14 (2): 233 - 250, 2006


C OMO PODEM SER ANALISADOS DADOS PAREADOS DE FORMA PROBABILÍSTICA<br />

NA PRESENÇA DE INCERTEZA? UM EXERCÍCIO CONTRASTANDO QUATRO PROCEDIMENTOS<br />

<strong>de</strong> i<strong>de</strong>ntificadores. Isso causa problemas na análise em diversas áreas <strong>de</strong> estudo.<br />

No âmbito da pesquisa em saú<strong>de</strong> infantil ou neonatal, pares errôneos <strong>po<strong>de</strong>m</strong><br />

levar a uma subestimação da verda<strong>de</strong>ira relação entre, por exemplo, o óbito<br />

neonatal e uma variável fortemente associada com a morte no período neonatal.<br />

Um exemplo <strong>de</strong> variável <strong>ser</strong>ia a ida<strong>de</strong> da mãe. Com base na literatura, po<strong>de</strong>-se<br />

esperar que um recém-nascido que sobreviveu ao período neonatal tenha maior<br />

chance <strong>de</strong> <strong>ser</strong> filho <strong>de</strong> mães entre as ida<strong>de</strong>s 20 e 40 anos comparativamente aos<br />

recém-nascidos falecidos no período neonatal (Salihu et al., 2004; Sina et al., 2003;<br />

Jacobsson et al., 2004; Machado, 2002). Logo, intuitivamente, a verda<strong>de</strong>ira<br />

associação entre ida<strong>de</strong> materna e mortalida<strong>de</strong> neonatal estaria subestimada. Deve-se<br />

ressaltar que isso acontece nas situações <strong>de</strong> pares falso-positivos em que o erro<br />

não varia segundo os níveis da variável <strong>de</strong> exposição (erros não-informativos).<br />

Para erros informativos e erros falso-negativos (ou seja, para medidas <strong>de</strong> razão), o<br />

viés po<strong>de</strong> <strong>ser</strong> em qualquer direção. Assim, o i<strong>de</strong>al <strong>ser</strong>ia obter uma estimativa<br />

ajustada da forte associação entre o óbito neonatal e a ida<strong>de</strong> da mãe, a qual fosse<br />

o menos possível afetada por pareamentos incorretos (Scheuren & Winkler, 1993).<br />

Neste trabalho, são propostos quatro procedimentos que permitiriam gerar este<br />

estimador, sendo que um <strong>de</strong>les explicitamente incorpora pareamentos incorretos<br />

na análise, sendo então consi<strong>de</strong>rado o pior cenário possível para comparação.<br />

Este trabalho justifica-se pelo fato <strong>de</strong> não haver, ainda, uma forma estabelecida<br />

<strong>de</strong> se trabalhar com <strong>dados</strong> <strong>pareados</strong> quando se sabe que há pareamentos incorretos<br />

e não há como (ou não se <strong>de</strong>seja) revisar manualmente os pareamentos possíveis.<br />

Dentre os motivos <strong>de</strong>sta impossibilida<strong>de</strong>, po<strong>de</strong> <strong>ser</strong> <strong>de</strong>stacada a questão da quantida<strong>de</strong><br />

<strong>de</strong> pares formados a <strong>ser</strong>em revisados. De fato, lidar com os pareamentos “não<br />

solucionados” <strong>de</strong> forma automática é uma área <strong>de</strong> pesquisa consi<strong>de</strong>rada importante<br />

em relacionamento <strong>de</strong> registros, especialmente no caso <strong>de</strong> pareamentos envolvendo<br />

gran<strong>de</strong>s bancos <strong>de</strong> <strong>dados</strong>, uma vez que a intervenção manual é dispendiosa e envolve<br />

um tempo muito gran<strong>de</strong>, além <strong>de</strong> poucos pesquisadores estarem aptos a realizar<br />

esta tarefa, porque a revisão manual requer um conhecimento prévio bastante<br />

<strong>de</strong>talhado das duas bases <strong>de</strong> <strong>dados</strong>, bem como do entendimento dos tipos <strong>de</strong> erros<br />

e omissões que <strong>po<strong>de</strong>m</strong> ocorrer em ambas as bases <strong>de</strong> <strong>dados</strong>.<br />

2. MÉTODOS<br />

2.1. PAREAMENTO DE DADOS E SELEÇÃO DOS MELHORES PARES<br />

São utilizados, como exemplos, <strong>dados</strong> <strong>de</strong> óbitos da coorte <strong>de</strong> nascimentos <strong>de</strong><br />

1999 dos estados <strong>de</strong> Santa Catarina e do Rio Gran<strong>de</strong> do Norte a <strong>ser</strong>em <strong>pareados</strong><br />

com seus respectivos nascimentos das coortes dos dois estados. A escolha <strong>de</strong>stes<br />

dois estados se justificou pelo fato <strong>de</strong>, em Santa Catarina, os bancos <strong>de</strong> <strong>dados</strong><br />

C ADERNOS SAÚDE COLETIVA, RIO DE JANEIRO, 14 (2): 233 - 250, 2006 – 237


C ARLA JORGE MACHADO<br />

<strong>ser</strong>em consi<strong>de</strong>rados mais completos e <strong>de</strong> melhor qualida<strong>de</strong>, enquanto no Rio<br />

Gran<strong>de</strong> do Norte os <strong>dados</strong> já <strong>ser</strong>em consi<strong>de</strong>rados menos completos, além <strong>de</strong> mais<br />

sujeitos a erros (Ministério da Saú<strong>de</strong>, 2001).<br />

As informações utilizadas provieram do Sistema <strong>de</strong> Informações sobre Nascidos<br />

Vivos (SINASC) e do Sistema <strong>de</strong> Informações sobre Mortalida<strong>de</strong> (SIM) para duas<br />

coortes <strong>de</strong> nascimentos distintas do ano <strong>de</strong> 1999. Os documentos <strong>de</strong> coleta das<br />

informações <strong>de</strong>stes dois sistemas são, respectivamente, a Declaração <strong>de</strong> Nascimento<br />

(DN) e a Declaração <strong>de</strong> Óbito (DO). Uma das coortes era constituída <strong>de</strong> 98.854<br />

nascidos vivos <strong>de</strong> mães resi<strong>de</strong>ntes no Estado <strong>de</strong> Santa Catarina e a outra <strong>de</strong> 57.937<br />

nascidos vivos <strong>de</strong> mães resi<strong>de</strong>ntes no Estado do Rio Gran<strong>de</strong> do Norte; incluíram-se<br />

no estudo, inicialmente, todos os nascidos vivos cujas datas <strong>de</strong> nascimento estavam<br />

compreendidas entre 1º <strong>de</strong> janeiro <strong>de</strong> 1999 e 31 <strong>de</strong> <strong>de</strong>zembro daquele ano. Em<br />

seguida, foram encontrados os óbitos neonatais advindos <strong>de</strong> cada uma <strong>de</strong>stas coortes<br />

<strong>de</strong> nascimento, selecionando (nos bancos <strong>de</strong> óbitos <strong>de</strong> resi<strong>de</strong>ntes <strong>de</strong> Santa Catarina e<br />

do Rio Gran<strong>de</strong> do Norte) aqueles óbitos cujas datas <strong>de</strong> nascimento das crianças <strong>de</strong> 0<br />

a 27 dias estavam compreendidas entre o primeiro e o último dia <strong>de</strong> 1999. Uma vez<br />

que nascidos no final do ano <strong>de</strong> 1999 po<strong>de</strong>riam ter morrido em 2000, foi necessário<br />

obterem-se os óbitos a partir dos bancos <strong>de</strong> <strong>dados</strong> <strong>de</strong> óbitos tanto referentes ao ano<br />

<strong>de</strong> 1999, quanto <strong>de</strong> 2000. Para Santa Catarina, obtiveram-se 1039 óbitos neonatais<br />

e para o Rio Gran<strong>de</strong> do Norte, 876 óbitos neonatais. Proce<strong>de</strong>u-se a um relacionamento<br />

probabilístico entre os nascidos vivos <strong>de</strong> Santa Catarina e seus respectivos óbitos<br />

<strong>de</strong> menores <strong>de</strong> 28 dias; fez-se o mesmo para o caso do Rio Gran<strong>de</strong> do Norte.<br />

Utilizou-se a primeira versão do software Reclink (Camargo Jr. & Coeli, 2000), a qual<br />

implementa a metodologia clássica <strong>de</strong> relacionamento probabilístico. Os escores<br />

<strong>de</strong> pareamento utilizados para cada variável, bem como o categorização inicial<br />

das variáveis para que pu<strong>de</strong>ssem <strong>ser</strong> comparadas, encontram-se na Tabela 1.<br />

Tabela 1<br />

Probabilida<strong>de</strong>s m e u, escores individuais para concordância e discordância para cada<br />

variável (i<strong>de</strong>ntificador) e escores máximo e mínimo gerais <strong>de</strong> pareamento.<br />

Escore geral <strong>de</strong> pareamento para concordância total (escore máximo) 14,6<br />

Escore geral <strong>de</strong> pareamento para discordância total (escore mínimo) -17,2<br />

238 – CADERNOS SAÚDE COLETIVA, RIO DE JANEIRO, 14 (2): 233 - 250, 2006


C OMO PODEM SER ANALISADOS DADOS PAREADOS DE FORMA PROBABILÍSTICA<br />

NA PRESENÇA DE INCERTEZA? UM EXERCÍCIO CONTRASTANDO QUATRO PROCEDIMENTOS<br />

Nota-se que o maior escore para concordância foi o relativo à variável<br />

município <strong>de</strong> residência (4,3) e o menor para a variável tipo <strong>de</strong> gravi<strong>de</strong>z (0,8). Isto<br />

reflete principalmente o fato <strong>de</strong> a variável município <strong>de</strong> residência discriminar<br />

muito mais do que a variável tipo <strong>de</strong> gravi<strong>de</strong>z: nota-se, por exemplo, que enquanto<br />

há 293 municípios em Santa Catarina (correspon<strong>de</strong>ndo a 293 valores<br />

ou níveis da variável município), há apenas dois níveis para a variável tipo <strong>de</strong><br />

gravi<strong>de</strong>z, sendo que a maior parte dos recém-nascidos são não-gemelares. No<br />

caso da discordância, ob<strong>ser</strong>va-se que discordância em município conduz a um<br />

escore <strong>de</strong> 4,6 negativo (o mais negativo <strong>de</strong> todos), e a discordância em peso ao<br />

nascer conduz ao escore menos negativo <strong>de</strong> todos (1,6 negativo), revelando,<br />

principalmente, que uma discordância em município, uma variável menos sujeita<br />

a erros, é mais séria do que uma discordância em peso ao nascer, mais sujeita à<br />

imprecisões <strong>de</strong> i<strong>de</strong>ntificação e codificação.<br />

No caso <strong>de</strong>ste estudo, valores não <strong>de</strong>clarados, ao <strong>ser</strong>em comparados, em<br />

quaisquer i<strong>de</strong>ntificadores, foram consi<strong>de</strong>rados concordantes entre si.<br />

Segundo a Tabela 1, também se ob<strong>ser</strong>va que o escore máximo <strong>de</strong> pareamento<br />

obtido foi 14,6 (concordância em todos os i<strong>de</strong>ntificadores) e o menor escore <strong>de</strong><br />

pareamento foi <strong>de</strong> 17,2 negativos (discordância em todos os i<strong>de</strong>ntificadores).<br />

Cabe ob<strong>ser</strong>var que é necessário selecionar uma variável como sendo a variável<br />

<strong>de</strong> blocagem, ou seja, é necessário que seja escolhida uma variável <strong>de</strong> partição do<br />

banco <strong>de</strong> <strong>dados</strong>. Os pares só são consi<strong>de</strong>rados como pares possíveis caso estejam<br />

numa mesma partição ou bloco. Consi<strong>de</strong>rou-se como variável <strong>de</strong> blocagem a<br />

data <strong>de</strong> nascimento do recém-nascido.<br />

No caso <strong>de</strong>ste estudo, sabe-se que uma relação unívoca é esperada entre dois<br />

registros em cada conjunto <strong>de</strong> dois arquivos <strong>pareados</strong>. Assim, assumiram-se como<br />

pares verda<strong>de</strong>iros aqueles com os mais elevados escores <strong>de</strong> pareamento total e<br />

com relação unívoca. Desta forma, não estabelecemos um limiar a partir do qual<br />

<strong>de</strong>clararíamos os pares como possíveis.<br />

Ainda que se tenham usado seis variáveis no pareamento, isso não se revelou<br />

suficiente para que se encontrasse uma relação unívoca e, por isso, mais <strong>de</strong> uma<br />

Declaração <strong>de</strong> Nascimento (DN) foi aceita para cada Declaração <strong>de</strong> Óbito<br />

(DO). Isto aconteceu por uma série <strong>de</strong> razões. Em primeiro lugar, havia um<br />

número elevado <strong>de</strong> DNs que po<strong>de</strong>riam <strong>ser</strong> pareadas com cada DO. Em segundo<br />

lugar, a elevada proporção <strong>de</strong> <strong>dados</strong> não <strong>de</strong>clarados, especialmente nas DOs,<br />

tal como peso ao nascer (23,5% e 41,6% em SC e no RN, respectivamente), tipo <strong>de</strong><br />

parto (23,4% em ambos os estados), tipo <strong>de</strong> gravi<strong>de</strong>z (24,3% e 22,85, em SC e<br />

no RN, respectivamente ) e ida<strong>de</strong> da mãe (30,7% e 38,6%, em SC e no RN,<br />

respectivamente), o que levou ao aumento <strong>de</strong> imprecisão do pareamento.<br />

Finalmente, algumas variáveis não possuíam po<strong>de</strong>r discriminatório elevado,<br />

C ADERNOS SAÚDE COLETIVA, RIO DE JANEIRO, 14 (2): 233 - 250, 2006 – 239


C ARLA JORGE MACHADO<br />

tal como tipo <strong>de</strong> gravi<strong>de</strong>z, pois, em ambas as populações estudadas, mais <strong>de</strong> 98%<br />

<strong>de</strong> todos os nascimentos eram não-múltiplos.<br />

Cabe salientar que, segundo critério estabelecido para blocagem, 70 óbitos<br />

neonatais no caso <strong>de</strong> Santa Catarina e 86 no caso do Rio Gran<strong>de</strong> do Norte não<br />

obtiveram concordância exata em data <strong>de</strong> nascimento com qualquer registro <strong>de</strong><br />

nascimento e foram excluídos da análise (7,2% e 9,8% do total <strong>de</strong> óbitos em cada<br />

estado, respectivamente).<br />

2.2. ANÁLISE DOS DADOS PAREADOS<br />

Neste estudo quatro procedimentos foram implementados na análise dos<br />

<strong>dados</strong> <strong>pareados</strong>, o que implica dizer que quatro bancos <strong>de</strong> <strong>dados</strong> foram gerados,<br />

<strong>de</strong> formas diferentes, e nestes diferentes bancos implementaram-se procedimentos<br />

<strong>de</strong> análise que divergiram entre si. Em primeiro lugar, utilizaram-se apenas pares<br />

que possuíam relação unívoca e que, além disso, possuíam o maior peso, os quais<br />

consi<strong>de</strong>rou-se <strong>ser</strong>em pares verda<strong>de</strong>iros. É importante frisar essas duas condições,<br />

pois po<strong>de</strong>ria haver casos no qual uma DO formava um par com uma DN com<br />

escore superior a um outro par formado para a mesma DO, mas com outra DN.<br />

Logo, <strong>ser</strong>ia selecionado como par correto o primeiro par. Também foram<br />

inutilizados os pares incertos, formados por aquelas DOs pareadas com mais <strong>de</strong><br />

uma DN. Pares para os quais verificou-se que uma mesma DN encontrava-se<br />

pareada com mais <strong>de</strong> uma DO também foram inutilizados. Assim, o arquivo final<br />

para análise consistiu dos pares com relação unívoca além das DNs que não se<br />

haviam envolvido em qualquer pareamento, mantendo-se a variável ida<strong>de</strong> da<br />

mãe advinda do banco <strong>de</strong> <strong>dados</strong> <strong>de</strong> nascidos vivos para análise.<br />

Em segundo lugar, foram utilizados todos os melhores pares na análise e cada<br />

par formado foi pon<strong>de</strong>rado. O critério para se <strong>de</strong>finir o melhor par foi baseado<br />

no maior escore geral <strong>de</strong> pareamento obtido tanto para uma DO quanto para<br />

uma DN. O peso dado a cada par procurou dimensionar a certeza <strong>de</strong> que o par<br />

era formado por uma DO e por uma DN que representavam o mesmo recémnascido.<br />

Assumiu-se que o grau <strong>de</strong> certeza estava inversamente relacionado ao<br />

número <strong>de</strong> DNs existentes para cada DO. As DOs que se ligavam a poucas DNs<br />

receberam pon<strong>de</strong>rações maiores na análise, refletindo a menor incerteza em<br />

relação àquele par, em relação aos pares formados por DOs que se ligavam a<br />

muitas DNs. O peso dado na análise dos <strong>dados</strong> correspon<strong>de</strong>u ao inverso do<br />

número <strong>de</strong> vezes que um óbito apareceu no arquivo pareado, variando <strong>de</strong> bem<br />

próximo <strong>de</strong> zero (pares formados por uma DO ligada a muitas DNs) a um (uma<br />

única DN ligada a uma DO). Após a obtenção do arquivo pareado, proce<strong>de</strong>u-se<br />

à junção <strong>de</strong>ste com o arquivo original <strong>de</strong> nascidos vivos e a cada DN a qual não<br />

tivesse sido pareada com qualquer DO (supostamente aquelas DNs pertencentes<br />

240 – CADERNOS SAÚDE COLETIVA, RIO DE JANEIRO, 14 (2): 233 - 250, 2006


C OMO PODEM SER ANALISADOS DADOS PAREADOS DE FORMA PROBABILÍSTICA<br />

NA PRESENÇA DE INCERTEZA? UM EXERCÍCIO CONTRASTANDO QUATRO PROCEDIMENTOS<br />

a recém-nascidos não falecidos no período neonatal) atribuiu-se o maior peso,<br />

equivalente a uma unida<strong>de</strong>. Foi mantida também a informação sobre ida<strong>de</strong> da<br />

mãe proveniente das DNs. Após obtenção <strong>de</strong>ste arquivo, para que se obtivesse o<br />

arquivo final, foi necessário encontrar se acaso havia qualquer DN pareada com<br />

mais <strong>de</strong> uma DO e eliminar esses pares. Isto é importante pois somar os pesos <strong>de</strong>sses<br />

pares estaria incorreto dado que, teoricamente, po<strong>de</strong>r-se-ia obter um peso acima<br />

<strong>de</strong> um para uma DN sobre a qual ter-se-ia incerteza sobre a ocorrência do óbito.<br />

No caso mais simples, se ocorre uma DN pareada com duas DOs e estas por sua<br />

vez não se pareiam com qualquer outra DN, <strong>ser</strong>ia dado o peso <strong>de</strong> uma unida<strong>de</strong> a um<br />

par para o qual existe incerteza se a DN é <strong>de</strong> fato a “verda<strong>de</strong>ira” para cada DO.<br />

Em terceiro lugar, utilizou-se o banco <strong>de</strong> <strong>dados</strong> o qual foi pon<strong>de</strong>rado (<strong>de</strong>scrito<br />

imediatamente acima) e selecionou-se aleatoriamente uma DN do conjunto <strong>de</strong><br />

possíveis DNs, para cada DO. Logo, num exemplo hipotético, se houvesse a<br />

“DO número 1” cujos melhores pares fossem aqueles advindos do pareamento<br />

com as DNs <strong>de</strong> números 2, 3 e 4, po<strong>de</strong>ria <strong>ser</strong> selecionado o par “DO número 1<br />

com DN número 3”, <strong>de</strong> forma aleatória e os pares “DO número 1 com DN<br />

número 2” e “DO número 1 com DN número 4” <strong>ser</strong>iam retirados da análise.<br />

Logo, o arquivo <strong>de</strong> pares foi formado pelos pares unívocos (para os quais a<br />

seleção aleatória resultaria sempre no mesmo par) e pelos pares selecionados <strong>de</strong><br />

forma aleatória, no caso <strong>de</strong> haver mais <strong>de</strong> uma DN para cada DO. O arquivo<br />

final foi formado por esses pares e pelas DNs as quais não se envolveram em<br />

pareamento com quaisquer DOs (supostamente, <strong>de</strong> nascidos vivos que não faleceram<br />

no período neonatal). No exemplo mencionado acima, as DNs número 2 e número<br />

4 <strong>ser</strong>iam retiradas da análise, ou seja, não estariam incluídas no arquivo final<br />

como DNs <strong>de</strong> crianças que não faleceram. Dado que neste método a seleção<br />

aleatória po<strong>de</strong> conduzir a resultados diferenciados caso a análise seja refeita,<br />

repetiu-se o procedimento 99 vezes adicionais e 100 bancos <strong>de</strong> <strong>dados</strong> foram<br />

gerados, com o objetivo <strong>de</strong> se obter um resultado médio das 100 rodadas. Em cada<br />

um dos 100 arquivos finais, a informação sobre a ida<strong>de</strong> da mãe da DN foi mantida.<br />

Finalmente, no quarto procedimento, o arquivo final consistiu <strong>de</strong> todos os<br />

melhores pares obtidos além das DNs que não foram pareadas com qualquer DO<br />

e a análise não foi feita <strong>de</strong> forma pon<strong>de</strong>rada, o que equivale dizer que todas as<br />

ob<strong>ser</strong>vações na análise receberam peso igual. Este procedimento foi utilizado<br />

como o pior cenário possível que se po<strong>de</strong>ria obter, pois, claramente, consi<strong>de</strong>rou-se<br />

que muitas DNs po<strong>de</strong>riam estar vinculadas a uma única DO. <strong>Como</strong> em todos os<br />

<strong>de</strong>mais casos, a informação sobre ida<strong>de</strong> da mãe advinda do arquivo <strong>de</strong> nascimento<br />

foi mantida na análise.<br />

A informação sobre a ida<strong>de</strong> da mãe foi categorizada em 10 a 14, 15 a 19, 20 a<br />

24, 25 a 29, 30 a 34, 35 a 39 e 40 ou mais e sete variáveis indicadoras foram geradas.<br />

C ADERNOS SAÚDE COLETIVA, RIO DE JANEIRO, 14 (2): 233 - 250, 2006 – 241


C ARLA JORGE MACHADO<br />

Neste estudo, um mo<strong>de</strong>lo <strong>de</strong> regressão logística binária múltipla foi consi<strong>de</strong>rado<br />

apropriado para mo<strong>de</strong>lar a variável dicotômica, óbito no período neonatal<br />

(a qual assumiu o valor 1) ou não (valor zero). As razões das chances obtidas, com<br />

seus respectivos intervalos <strong>de</strong> confiança <strong>de</strong> 95%, têm a seguinte interpretação: se<br />

a covariável x1 é uma variável indicadora <strong>de</strong> ida<strong>de</strong> da mãe 10 a 14 anos, os<br />

resultados obtidos representam a chance <strong>de</strong> óbito neonatal dado que o recémnascido<br />

era filho <strong>de</strong> uma mãe <strong>de</strong> 10 a 14 anos, versus a chance <strong>de</strong> óbito neonatal<br />

dado que a ida<strong>de</strong> da mãe é 25 a 29 anos (categoria <strong>de</strong> referência).<br />

3. RESULTADOS<br />

3.1. RESULTADOS DO RELACIONAMENTO PROBABILÍSTICO DE REGISTRO E SELEÇÃO<br />

DOS MELHORES PARES<br />

Com os melhores pares obtidos, quatro bancos <strong>de</strong> <strong>dados</strong> foram gerados.<br />

O primeiro, no caso <strong>de</strong> Santa Catarina, consistiu <strong>de</strong> 97.000 DNs que não foram<br />

pareadas com qualquer DO e consistiu também <strong>de</strong> 822 DOs que foram pareadas<br />

univocamente com uma DN. No caso do Rio Gran<strong>de</strong> do Norte, estes resultados<br />

foram <strong>de</strong> 56.051 e 563, respectivamente.<br />

O segundo banco <strong>de</strong> <strong>dados</strong> foi formado pelas mesmas 97.000 DNs que não<br />

foram pareadas, no caso <strong>de</strong> Santa Catarina, além <strong>de</strong> todos os melhores pares<br />

obtidos. Alguns <strong>de</strong>stes melhores pares constaram <strong>de</strong> DOs com relação unívoca<br />

com uma DN, mas para outras DOs esta relação não foi encontrada. Ou seja,<br />

tratou-se <strong>de</strong> 822 DOs com um único nascimento e <strong>de</strong> 130 DOs com múltiplas<br />

DNs pareadas (total <strong>de</strong> 1829 DNs para as 952 DOs). Estes valores foram <strong>de</strong> 563<br />

DOs com uma única DN e 219 DOs para 1319 DNs (total <strong>de</strong> 1882 DNs para as<br />

782 DOs), no caso do Rio Gran<strong>de</strong> do Norte. A distribuição das DOs, segundo o<br />

número <strong>de</strong> DNs a eles <strong>pareados</strong> encontra-se na Tabela 2.<br />

Tabela 2<br />

Distribuição <strong>de</strong> DOs, <strong>de</strong> acordo com o número <strong>de</strong> DNs pareadas.<br />

242 – CADERNOS SAÚDE COLETIVA, RIO DE JANEIRO, 14 (2): 233 - 250, 2006


C OMO PODEM SER ANALISADOS DADOS PAREADOS DE FORMA PROBABILÍSTICA<br />

NA PRESENÇA DE INCERTEZA? UM EXERCÍCIO CONTRASTANDO QUATRO PROCEDIMENTOS<br />

<strong>Como</strong> se ob<strong>ser</strong>va, a maior parte das DOs foram pareadas <strong>de</strong> forma unívoca,<br />

nos dois estados, mas no Rio Gran<strong>de</strong> do Norte esta proporção foi inferior à <strong>de</strong><br />

Santa Catarina (72% e 86,3%, respectivamente). E, em comparação à Santa<br />

Catarina, o Rio Gran<strong>de</strong> do Norte teve sempre um número e uma proporção<br />

maior <strong>de</strong> DOs <strong>pareados</strong> com duas ou mais DNs. Assim, em média, os pares formados<br />

em Santa Catarina receberam um peso maior na análise do que os pares formados no<br />

Rio Gran<strong>de</strong> do Norte. Cabe ob<strong>ser</strong>var que houve pares formados excluídos nos<br />

dois estados. Oito pares formados foram excluídos em cada banco <strong>de</strong> <strong>dados</strong><br />

<strong>de</strong>vido ao fato <strong>de</strong> que uma única DN se havia pareado com mais <strong>de</strong> uma DO.<br />

O terceiro conjunto <strong>de</strong> banco <strong>de</strong> <strong>dados</strong> consistiu, no caso <strong>de</strong> Santa Catarina,<br />

das 97.000 DNs que não se parearam com quaisquer DOs, dos 822 registros <strong>de</strong><br />

óbitos <strong>pareados</strong> univocamente, e das 130 DOs para as quais foi feita uma seleção<br />

aleatória <strong>de</strong> um único nascimento. Repetiu-se o experimento 99 vezes e 100 bancos<br />

<strong>de</strong> <strong>dados</strong> foram gerados, com 97.952 registros cada. No caso do Rio Gran<strong>de</strong> do<br />

Norte, os arquivos consistiram dos 56.051 DNs não-pareadas, além das 563<br />

DOs pareadas univocamente e, adicionalmente, das 219 DOs para as quais foi<br />

selecionada <strong>de</strong> forma aleatória uma DN, ou seja, arquivos com 56.833 registros cada.<br />

O quarto conjunto <strong>de</strong> <strong>dados</strong> foi o utilizado no caso pon<strong>de</strong>rado, mas não se<br />

pon<strong>de</strong>raram os pares formados <strong>de</strong> acordo com o grau <strong>de</strong> certeza. Assim, no caso<br />

<strong>de</strong> Santa Catarina, todos os 98.829 registros contribuíram igualmente para a<br />

análise e, no caso do Rio Gran<strong>de</strong> do Norte, todos os 57.933 registros também<br />

contribuíram igualmente para a análise.<br />

3.2. DISTRIBUIÇÃO DOS GRUPOS DE IDADES DA MÃE EM CADA BANCO DE DADOS<br />

A distribuição das DNs para recém-nascidos que não faleceram no período<br />

neonatal (ou seja, para o qual não houve qualquer DO relacionada), por grupos<br />

<strong>de</strong> ida<strong>de</strong> da mãe, é a mesma em todos os bancos <strong>de</strong> <strong>dados</strong>, para cada estado.<br />

A diferença foi encontrada na distribuição daqueles que faleceram, uma vez que<br />

a <strong>de</strong>finição <strong>de</strong> quem faleceu ou não variou segundo procedimentos diferentes.<br />

Na Tabela 3 nota-se que 0,6% das DNs <strong>de</strong> recém-nascidos cujas mães tinham<br />

ida<strong>de</strong>s <strong>de</strong> 10 a 14 anos não foram pareadas com quaisquer DOs. Esta percentagem<br />

foi sempre inferior à percentagem relativa aos recém-nascidos consi<strong>de</strong>rados<br />

<strong>pareados</strong>, por qualquer método. Este fenômeno também foi ob<strong>ser</strong>vado no<br />

caso <strong>de</strong> recém-nascidos cujas mães tinham <strong>de</strong> 15 a 19 anos e acima <strong>de</strong> 34 anos,<br />

além daqueles para os quais a informação sobre a ida<strong>de</strong> da mãe era não-<strong>de</strong>clarada.<br />

No caso dos recém-nascidos do Rio Gran<strong>de</strong> do Norte (Tabela 4), <strong>pareados</strong> por<br />

qualquer procedimento, ob<strong>ser</strong>va-se que apenas no caso <strong>de</strong> recém-nascidos cujas<br />

mães tinham ida<strong>de</strong>s entre 15 a 19 anos, e para aqueles cujas mães não possuíam<br />

ida<strong>de</strong> <strong>de</strong>clarada, as percentagens foram superiores relativamente aos não-<strong>pareados</strong>.<br />

C ADERNOS SAÚDE COLETIVA, RIO DE JANEIRO, 14 (2): 233 - 250, 2006 – 243


C ARLA JORGE MACHADO<br />

Tabela 3<br />

Distribuição das DOs segundo a ida<strong>de</strong> da mãe, e por quatro procedimentos diferentes <strong>de</strong><br />

<strong>de</strong>finição <strong>de</strong> pares formados - Santa Catarina.<br />

N para DNs não pareadas: 97000; N para (a): 822; N pon<strong>de</strong>rado para (b): 952; N para (c): 952; N para (d):1892.<br />

Tabela 4<br />

Distribuição dos registros segundo a ida<strong>de</strong> da mãe, por status marital, e por quatro procedimentos<br />

diferentes <strong>de</strong> <strong>de</strong>finição <strong>de</strong> pares formados - Rio Gran<strong>de</strong> do Norte.<br />

Nota: N para recém-nascidos sobreviventes: 56051; N para (a):563; N pon<strong>de</strong>rado para (b): 782;<br />

N para (c): 782; N para (d):1882.<br />

3.3. RESULTADOS DA REGRESSÃO LOGÍSTICA<br />

As Tabelas 5 e 6 sumarizam os resultados da regressão logística.<br />

244 – CADERNOS SAÚDE COLETIVA, RIO DE JANEIRO, 14 (2): 233 - 250, 2006


C OMO PODEM SER ANALISADOS DADOS PAREADOS DE FORMA PROBABILÍSTICA<br />

NA PRESENÇA DE INCERTEZA? UM EXERCÍCIO CONTRASTANDO QUATRO PROCEDIMENTOS<br />

Tabela 5<br />

Resultados da regressão logística, por quatro procedimentos, SC. Avaliação da associação<br />

entre faixa etária e óbito neonatal.<br />

Nota: N para (a): 97822; N pon<strong>de</strong>rado para (b): 98829; N para (c): 97968; N para (d):98892.<br />

Tabela 6<br />

Resultados da regressão logística, por quatro procedimentos, RN. Avaliação da associação<br />

entre faixa etária e óbito neonatal.<br />

Nota: N para (a): 56614; N pon<strong>de</strong>rado para (b): 57933; N para (c): 56841; N para (d):57949.<br />

Os resultados obtidos a partir dos bancos <strong>de</strong> <strong>dados</strong> gerados foram semelhantes,<br />

mas algumas diferenças pu<strong>de</strong>ram <strong>ser</strong> i<strong>de</strong>ntificadas (Tabelas 5 e 6). Em primeiro<br />

lugar, a partir do primeiro banco <strong>de</strong> <strong>dados</strong>, no caso dos dois estados, formado<br />

dos pares unívocos e apenas daquelas DNs que não se parearam com qualquer<br />

C ADERNOS SAÚDE COLETIVA, RIO DE JANEIRO, 14 (2): 233 - 250, 2006 – 245


C ARLA JORGE MACHADO<br />

DO (a), os intervalos <strong>de</strong> confiança gerados foram maiores, o que reflete menor<br />

tamanho <strong>de</strong> amostra. Além disso, os resultados obtidos com base nesse mesmo<br />

banco <strong>de</strong> <strong>dados</strong> revelaram as razões <strong>de</strong> chance mais afastadas <strong>de</strong> um, ou seja, a<br />

partir do banco que levou em conta apenas os pareamentos unívocos e os não<strong>pareados</strong>,<br />

os tamanhos <strong>de</strong> efeito foram maiores, exceto para os grupos etários<br />

20 a 24 anos nos dois estados, e 30 a 34 anos no caso do Rio Gran<strong>de</strong> do Norte.<br />

Cabe ainda ob<strong>ser</strong>var que os resultados que mais se assemelharam foram os<br />

referentes ao banco <strong>de</strong> <strong>dados</strong> para o qual foi feita a pon<strong>de</strong>ração segundo o<br />

grau <strong>de</strong> certeza dos melhores pares (b) e do resultado médio dos bancos <strong>de</strong><br />

<strong>dados</strong> para os quais foi feita a seleção aleatória das DNs (c).<br />

Finalmente, nota-se que os menores tamanhos <strong>de</strong> efeito (ou seja, razões <strong>de</strong><br />

chance mais próximas <strong>de</strong> um) foram obtidos quando da utilização do banco <strong>de</strong><br />

<strong>dados</strong> que incluiu todos os melhores pares, in<strong>de</strong>pen<strong>de</strong>ntemente se a relação era<br />

ou não unívoca e sem pon<strong>de</strong>rar os pares <strong>de</strong> acordo com o grau <strong>de</strong> certeza (d).<br />

4. DISCUSSÃO<br />

Neste trabalho realizou-se um exercício empírico <strong>de</strong> análise <strong>de</strong> bancos<br />

<strong>de</strong> <strong>dados</strong> formados <strong>de</strong> pares obtidos por meio probabilístico, na presença <strong>de</strong><br />

incerteza e a partir do conhecimento prévio <strong>de</strong> relação unívoca entre uma<br />

DO e uma DN. Os resultados quanto ao Estado <strong>de</strong> Santa Catarina parecem<br />

indicar que, inequivocamente, existe evidência <strong>de</strong> maior chance <strong>de</strong> óbito neonatal<br />

para recém-nascidos <strong>de</strong> mães <strong>de</strong> ida<strong>de</strong>s 10 a 14 anos e <strong>de</strong> mães sem informação<br />

<strong>de</strong> ida<strong>de</strong>, relativamente às mães <strong>de</strong> ida<strong>de</strong> 25 a 29 anos (grupo <strong>de</strong> referência). No<br />

caso do Rio Gran<strong>de</strong> do Norte, po<strong>de</strong>-se concluir o mesmo em relação ao grupo<br />

<strong>de</strong> recém-nascidos <strong>de</strong> 15 a 19 anos e <strong>de</strong> mães sem informação <strong>de</strong> ida<strong>de</strong>, relativamente<br />

ao grupo <strong>de</strong> referência <strong>de</strong> 25 a 29 anos. Esta conclusão proce<strong>de</strong>, uma vez<br />

que mesmo utilizando um banco <strong>de</strong> <strong>dados</strong> on<strong>de</strong> todos os melhores pares contribuíram<br />

igualmente para a análise ob<strong>ser</strong>vou-se tanto uma maior percentagem <strong>de</strong><br />

óbitos concentrados nestas ida<strong>de</strong>s mencionadas quanto uma maior chance <strong>de</strong><br />

óbito, relativamente à categoria <strong>de</strong> referência. De fato, cabe salientar que a<br />

distribuição dos óbitos neonatais neste banco <strong>de</strong> <strong>dados</strong> é enviesada, sendo este<br />

conjunto <strong>de</strong> óbitos o que explicitamente inclui pares falsos. Assim, no caso <strong>de</strong> o<br />

pesquisador ter gerado os quatro resultados, enten<strong>de</strong>-se que, mesmo na ausência<br />

<strong>de</strong> um padrão ouro que possa nos dizer se <strong>de</strong> fato chegou-se aos pares verda<strong>de</strong>iros,<br />

a obtenção <strong>de</strong> um mesmo resultado geral segundo diferentes métodos é capaz <strong>de</strong><br />

indicar a concentração <strong>de</strong> riscos.<br />

No caso <strong>de</strong> Santa Catarina, para as ida<strong>de</strong>s 15 a 19 anos, 35 a 39 anos e 40<br />

anos ou mais obteve-se maior chance <strong>de</strong> óbito relativamente às ida<strong>de</strong>s 25 a 29<br />

anos, quando foram utilizados o banco <strong>de</strong> <strong>dados</strong> composto apenas por pares unívocos,<br />

246 – CADERNOS SAÚDE COLETIVA, RIO DE JANEIRO, 14 (2): 233 - 250, 2006


C OMO PODEM SER ANALISADOS DADOS PAREADOS DE FORMA PROBABILÍSTICA<br />

NA PRESENÇA DE INCERTEZA? UM EXERCÍCIO CONTRASTANDO QUATRO PROCEDIMENTOS<br />

o composto por todos os melhores pares, mas com pon<strong>de</strong>ração, e a média <strong>de</strong><br />

resultados dos 100 bancos <strong>de</strong> <strong>dados</strong> cujos pares foram obtidos por seleção<br />

aleatória. Uma vez que estes <strong>ser</strong>iam os bancos preferíveis a qualquer pesquisador,<br />

pelo fato <strong>de</strong> tentar controlar o número <strong>de</strong> pares falsos, po<strong>de</strong>-se dizer que esses<br />

resultados são indicativos <strong>de</strong> que, no Estado <strong>de</strong> Santa Catarina, recém-nascidos<br />

<strong>de</strong> mães com menos <strong>de</strong> 19 anos ou acima <strong>de</strong> 35 anos são, pelo menos a princípio,<br />

<strong>de</strong> maior chance para o óbito neonatal. Este resultado está em concordância com<br />

a literatura sobre o assunto (Jacobsson et al., 2004; Machado, 2002; Salihu et al.,<br />

2004; Sina et al., 2003).<br />

De fato, no caso <strong>de</strong>ste estudo, a vasta maioria das DOs atingiu uma relação<br />

unívoca com alguma DN, o que fez com que a distribuição dos pares formados<br />

não fosse muito diferente nos bancos utilizados, pois todos são formados pelo<br />

conjunto <strong>de</strong> pares unívocos. Assim, os resultados <strong>de</strong>ste estudo <strong>ser</strong>iam indicativos<br />

<strong>de</strong> como po<strong>de</strong>r-se-ia proce<strong>de</strong>r numa situação que se espera uma relação unívoca<br />

entre dois bancos <strong>de</strong> <strong>dados</strong>, com alto grau <strong>de</strong> sucesso. Neste caso, po<strong>de</strong>r-se-ia<br />

pensar que não <strong>ser</strong>ia muito preocupante proce<strong>de</strong>r à análise das informações, por<br />

algum <strong>de</strong>sses métodos, ainda que se saiba que alguns pares são <strong>de</strong> fato incorretos.<br />

O que este estudo mostra é que é possível chegar a conclusões similares sobre as<br />

associações entre mortalida<strong>de</strong> neonatal e ida<strong>de</strong> da mãe, ainda que possa haver<br />

erros em relação aos pares formados, por métodos diferentes. Ou seja, o resultado<br />

é relativamente robusto ao método utilizado.<br />

Ainda que neste caso tenham sido obtidos resultados similares, cabem algumas<br />

consi<strong>de</strong>rações sobre vantagens e <strong>de</strong>svantagens na escolha <strong>de</strong> como proce<strong>de</strong>r na<br />

análise <strong>de</strong> <strong>dados</strong> <strong>pareados</strong> quando se espera uma relação unívoca. Utilizar um<br />

banco <strong>de</strong> <strong>dados</strong> para análise <strong>de</strong> <strong>dados</strong> <strong>pareados</strong> que inclua como pares formados<br />

apenas os melhores pares com relação unívoca não garante um resultado que<br />

possa <strong>ser</strong> generalizado para toda a população em estudo. De fato, <strong>de</strong>sprezar<br />

<strong>dados</strong> não parece uma opção razoável, principalmente se é possível minimizar<br />

<strong>de</strong> alguma outra forma o problema da incerteza quanto aos pares formados<br />

(através da pon<strong>de</strong>ração diferenciada segundo o grau <strong>de</strong> certeza, ou através da<br />

seleção aleatória). O procedimento da seleção aleatória, por sua vez, não gera<br />

sempre o mesmo resultado; se um pesquisador proce<strong>de</strong>r à seleção aleatória, com<br />

o mesmo banco <strong>de</strong> <strong>dados</strong> original, o mesmo número <strong>de</strong> vezes, não há garantias <strong>de</strong><br />

que seu resultado <strong>ser</strong>á o mesmo obtido por outro pesquisador. Assim, utilizar um<br />

método que leva em consi<strong>de</strong>ração se há ou não incertezas sobre o par formado e que<br />

utiliza um parâmetro para mensurar esta incerteza possui a vantagem <strong>de</strong> <strong>ser</strong> replicável.<br />

Por último, é importante <strong>de</strong>stacar que este estudo mostra que é possível obter<br />

alguns resultados com base nos <strong>dados</strong> <strong>pareados</strong>, em nível populacional, mesmo na<br />

presença <strong>de</strong> incerteza. Não obstante, ainda há muito o que fazer no sentido <strong>de</strong><br />

C ADERNOS SAÚDE COLETIVA, RIO DE JANEIRO, 14 (2): 233 - 250, 2006 – 247


C ARLA JORGE MACHADO<br />

melhorar a qualida<strong>de</strong> <strong>de</strong> coleta, preenchimento e digitação das informações, a<br />

fim <strong>de</strong> que se possa realizar um pareamento o mais correto possível. Apenas assim<br />

<strong>ser</strong>á possível fazer inferências mais precisas também no âmbito individual. Além<br />

disso, um problema que existe e o qual este trabalho não se propôs a tratar, mas<br />

que merece <strong>ser</strong> ao menos ressaltado, é o sub-registro <strong>de</strong> óbitos e <strong>de</strong> nascimentos,<br />

especialmente nos estados do Norte e Nor<strong>de</strong>ste. Assim, neste estudo, isto implicaria<br />

que DOs que <strong>de</strong>veriam estar contidas no banco <strong>de</strong> <strong>dados</strong> do SIM a fim <strong>de</strong> <strong>ser</strong>em<br />

pareadas com suas respectivas DNs <strong>de</strong> fato não constavam do conjunto <strong>de</strong> DOs.<br />

O resultado disto, numa situação <strong>de</strong> maior sub-registro <strong>de</strong> DOs relativamente às<br />

DNs, é que estar-se-ia consi<strong>de</strong>rando DNs erroneamente como não-pareadas, ou<br />

seja, pertencentes a recém-nascidos que não faleceram no período neonatal. Se a<br />

ida<strong>de</strong> da mãe estiver <strong>de</strong> fato altamente associada ao óbito neonatal no sentido<br />

esperado e sugerido pela literatura, mães mais jovens e mais velhas po<strong>de</strong>riam estar<br />

contidas no conjunto <strong>de</strong> não-pareadas, o que explicaria, pelo menos parcialmente,<br />

a ausência <strong>de</strong> associação significativa encontrada no Rio Gran<strong>de</strong> do Norte.<br />

É importante ressaltar estes aspectos uma vez que, mesmo com a disponibilida<strong>de</strong><br />

<strong>de</strong> <strong>dados</strong> para pareamentos, <strong>de</strong>ve-se estar sempre visando ao preenchimento<br />

a<strong>de</strong>quado e ao registro o mais completo possível das informações, <strong>de</strong> tal forma<br />

que se possa obter, a partir <strong>de</strong> <strong>dados</strong> <strong>pareados</strong>, o máximo em termos <strong>de</strong> conclusões<br />

generalizáveis para as populações em estudo.<br />

R EFERÊNCIAS BIBLIOGRÁFICAS<br />

BLAKELY, T.; WOODWARD, A.; SALMOND, C. Anonymous record linkage of 1991 census<br />

record and 1991-1994 mortality records. Disponível em:<br />

Acesso em: 3 jan. 2002.<br />

CAMARGO JR., K. R. ; COELI, C. M. Reclink: aplicativo para o relacionamento <strong>de</strong><br />

bases <strong>de</strong> <strong>dados</strong>, implementando o método probabilistic record linkage. Ca<strong>de</strong>rnos<br />

<strong>de</strong> Saú<strong>de</strong> Pública. Rio <strong>de</strong> Janeiro, v. 16, n. 2, p. 439 - 447, 2000.<br />

FELLEGI, I. P.; SUNTER, I. A theory of record linkage. Journal of the American<br />

Statistical Association. Alexandria, v. 64, p. 1183 - 1210, 1969.<br />

JACOBSSON, B.; LADFORS, L.; MILSOM, I. Advanced maternal age and adverse<br />

perinatal outcome. Obstetrics and Gynecology. Baltimore, v. 104, n. 4, p. 727 - 733, 2004.<br />

KENDRICK, S. W.; DOUGLAS, M. M.; GARDNER, D.; HUCKER, D. Best-link<br />

matching of scottish health data sets. Methods of Information in Medicine.<br />

Braunschweig. v. 37, n. 1, p. 64 - 68, 1998.<br />

248 – CADERNOS SAÚDE COLETIVA, RIO DE JANEIRO, 14 (2): 233 - 250, 2006


C OMO PODEM SER ANALISADOS DADOS PAREADOS DE FORMA PROBABILÍSTICA<br />

NA PRESENÇA DE INCERTEZA? UM EXERCÍCIO CONTRASTANDO QUATRO PROCEDIMENTOS<br />

LAVALLÉE, P.; CARON, P. Estimation using the generalized weight share method:<br />

the case of record linkage. Survey Methodology. Ontario, v. 27, n. 2, p. 155 - 169, 2001.<br />

MACHADO, C. J. Early infant morbidity and infant mortality in the city of São Paulo,<br />

Brazil: a probabilistic record linkage approach. 2002. 354 f. Tese (Doutorado em<br />

Dinâmica <strong>de</strong> População) – Bloomberg School of Public Health. Johns<br />

Hopkins University, Baltimore.<br />

MACLEOD, M. C.; BRAY, C. A.; KENDRICK, S. W.; COBBE, S. M. Enhancing the<br />

power of record linkage involving low quality personal i<strong>de</strong>ntifiers: use of the<br />

best link principle and cause of <strong>de</strong>ath prior likelihoods. Computers and Biomedical<br />

Research. New York, v. 31, n. 4, p. 257 - 270, 1998.<br />

MARTIKAINEN, P.; MAKELA, P.; KOSKINEN, S.; VALKONEN, T. Income differences<br />

in mortality: a register-based follow-up study of three million men and women.<br />

International Journal of Epi<strong>de</strong>miology. Oxford, v. 30, n. 6, p. 1405 - 1406, 2001.<br />

MINISTÉRIO DA SAÚDE. 2001. Disponível em:<br />

. Acesso<br />

em: 20 set. 2005.<br />

NEWCOMBE, H. B.; KENNEDY, J. M.; AXFORD, S. J.; JAMES, A. P. Automatic<br />

linkage of vital records. Science. Washington DC, v. 130, n. 16, 954 - 959, 1959.<br />

NEWCOMBE, H. B. Age-related bias in probabilistic <strong>de</strong>ath searches due to<br />

neglect of prior likelihoods. Computers and Biomedical Research. San Diego, v. 28,<br />

n. 2, p. 87 - 99, 1995.<br />

SALIHU, H. M.; EMUSU, D.; ALIYU, M. H.; KIRBY, R. S.; ALEXANDER, G. R. Low<br />

maternal age and neonatal survival of extremely preterm twins (20-28 weeks of<br />

gestation). Obstetrics and Gynecology. Baltimore, v. 103, n. 6, p. 1246 - 1254, 2004.<br />

SCHEUREN, F. E.; YOUNG, L. L. P. Linking health records: human rights<br />

concerns. International Workshop and Exposition, 1997. Proceedings. Washington<br />

DC, 1999, p. 404 - 426.<br />

SCHEUREN, F.; WINKLER, W. Regression analysis of data files that are computer<br />

matched-Part I. Survey Methodology. Ontario, v. 19, p. 39 - 58, 1993.<br />

SINA, D. E.; VALDIVIESO, B. J.; DEL PINO, L. V. Birth rates and reproductive risk<br />

in adolescents in Chile, 1990-1999. Revista Panamericana <strong>de</strong> Salud Publica. v. 14, n. 1,<br />

p. 3 - 8, 2003.<br />

WINKLER, W. The state of record linkage and current research problems. Disponível em:<br />

. Acesso em: 01 abr. 2001.<br />

C ADERNOS SAÚDE COLETIVA, RIO DE JANEIRO, 14 (2): 233 - 250, 2006 – 249

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!