Como podem ser analisados dados pareados de ... - IESC/UFRJ

Como podem ser analisados dados pareados de ... - IESC/UFRJ Como podem ser analisados dados pareados de ... - IESC/UFRJ

25.11.2014 Views

C ARLA JORGE MACHADO forma como é freqüentemente utilizado até os dias de hoje. A metodologia formulada por estes autores pode ser resumida da seguinte forma: em primeiro lugar, utilizando conceitos estatísticos, os autores demonstraram que, para que se pudessem somar os escores individuais de pareamento de cada identificador, estes deveriam ser estatisticamente independentes; em segundo lugar, argumentaram que nem sempre é possível considerar um par formado, inequivocamente, como um par falso ou verdadeiro e, desta forma, uma terceira categoria, a de pares possíveis ou potenciais, deveria ser considerada na classificação de pares. Ou seja, pares abaixo de um certo escore limiar geral, e acima de um outro limiar geral deveriam ser manualmente revistos (Scheuren & Young, 1999). Em terceiro lugar, os autores utilizaram a teoria de teste de hipótese e definiram que existem probabilidades de erro envolvidas na decisão de se classificar um par como um par verdadeiro ou falso. Finalmente, reconheceram que um mecanismo era necessário na comparação de dois bancos de dados, com o objetivo de se evitar que todos os registros de um banco de dados fossem confrontados com todos outros registros do segundo banco, através da exigência de que, para que os registros fossem comparáveis, teriam que concordar exatamente em uma determinada variável. Esse mecanismo é chamado de blocagem e nada mais é do que a partição estatística, ou uma mera divisão dos espaços a serem comparados. Esta divisão deve ser feita nos dois bancos de dados, cujos registros devem ser pareados entre si. Além destes postulados básicos que constituem a idéia geral do relacionamento probabilístico, observa-se que, se um indivíduo em um banco de dados é representado por apenas um outro registro em um outro banco de dados o pareamento probabilístico se torna uma tarefa menos complexa (Newcombe et al., 1995; Kendrick et al., 1998; MacLeod et al., 1998). Nestes casos, uma vez que um par tenha sido formado e considerado o melhor (mais provável de ser correto) com base no maior escore geral de pareamento, considera-se o processo de procura como terminado para ambos os registros que formaram o par. Assim, o conhecimento prévio desta relação unívoca facilita o pareamento probabilístico. No entanto, podem ainda existir pares considerados incertos, pois pode haver, para um determinado registro, mais de um par possível, e esse conjunto de pares necessitaria de revisão manual, o que é viável quando se possuem bancos de dados de tamanho moderado, mas difícil no caso de uma enorme quantidade de pares. Os pares que necessitam de revisão manual englobam pares errôneos. Pares errôneos seriam aqueles formados pela combinação de um registro em um banco de dados com outro registro em outro banco de dados que, de fato, não correspondem ao mesmo indivíduo. Poderiam surgir mais comumente, quando se tem ausência de informações para um indivíduo em um ou outro banco de dados (dados não declarados), o que torna o relacionamento mais impreciso, por ser baseado em um menor número 236 – CADERNOS SAÚDE COLETIVA, RIO DE JANEIRO, 14 (2): 233 - 250, 2006

C OMO PODEM SER ANALISADOS DADOS PAREADOS DE FORMA PROBABILÍSTICA NA PRESENÇA DE INCERTEZA? UM EXERCÍCIO CONTRASTANDO QUATRO PROCEDIMENTOS de identificadores. Isso causa problemas na análise em diversas áreas de estudo. No âmbito da pesquisa em saúde infantil ou neonatal, pares errôneos podem levar a uma subestimação da verdadeira relação entre, por exemplo, o óbito neonatal e uma variável fortemente associada com a morte no período neonatal. Um exemplo de variável seria a idade da mãe. Com base na literatura, pode-se esperar que um recém-nascido que sobreviveu ao período neonatal tenha maior chance de ser filho de mães entre as idades 20 e 40 anos comparativamente aos recém-nascidos falecidos no período neonatal (Salihu et al., 2004; Sina et al., 2003; Jacobsson et al., 2004; Machado, 2002). Logo, intuitivamente, a verdadeira associação entre idade materna e mortalidade neonatal estaria subestimada. Deve-se ressaltar que isso acontece nas situações de pares falso-positivos em que o erro não varia segundo os níveis da variável de exposição (erros não-informativos). Para erros informativos e erros falso-negativos (ou seja, para medidas de razão), o viés pode ser em qualquer direção. Assim, o ideal seria obter uma estimativa ajustada da forte associação entre o óbito neonatal e a idade da mãe, a qual fosse o menos possível afetada por pareamentos incorretos (Scheuren & Winkler, 1993). Neste trabalho, são propostos quatro procedimentos que permitiriam gerar este estimador, sendo que um deles explicitamente incorpora pareamentos incorretos na análise, sendo então considerado o pior cenário possível para comparação. Este trabalho justifica-se pelo fato de não haver, ainda, uma forma estabelecida de se trabalhar com dados pareados quando se sabe que há pareamentos incorretos e não há como (ou não se deseja) revisar manualmente os pareamentos possíveis. Dentre os motivos desta impossibilidade, pode ser destacada a questão da quantidade de pares formados a serem revisados. De fato, lidar com os pareamentos “não solucionados” de forma automática é uma área de pesquisa considerada importante em relacionamento de registros, especialmente no caso de pareamentos envolvendo grandes bancos de dados, uma vez que a intervenção manual é dispendiosa e envolve um tempo muito grande, além de poucos pesquisadores estarem aptos a realizar esta tarefa, porque a revisão manual requer um conhecimento prévio bastante detalhado das duas bases de dados, bem como do entendimento dos tipos de erros e omissões que podem ocorrer em ambas as bases de dados. 2. MÉTODOS 2.1. PAREAMENTO DE DADOS E SELEÇÃO DOS MELHORES PARES São utilizados, como exemplos, dados de óbitos da coorte de nascimentos de 1999 dos estados de Santa Catarina e do Rio Grande do Norte a serem pareados com seus respectivos nascimentos das coortes dos dois estados. A escolha destes dois estados se justificou pelo fato de, em Santa Catarina, os bancos de dados C ADERNOS SAÚDE COLETIVA, RIO DE JANEIRO, 14 (2): 233 - 250, 2006 – 237

C ARLA JORGE MACHADO<br />

forma como é freqüentemente utilizado até os dias <strong>de</strong> hoje. A metodologia<br />

formulada por estes autores po<strong>de</strong> <strong>ser</strong> resumida da seguinte forma: em primeiro<br />

lugar, utilizando conceitos estatísticos, os autores <strong>de</strong>monstraram que, para que se<br />

pu<strong>de</strong>ssem somar os escores individuais <strong>de</strong> pareamento <strong>de</strong> cada i<strong>de</strong>ntificador, estes<br />

<strong>de</strong>veriam <strong>ser</strong> estatisticamente in<strong>de</strong>pen<strong>de</strong>ntes; em segundo lugar, argumentaram<br />

que nem sempre é possível consi<strong>de</strong>rar um par formado, inequivocamente, como<br />

um par falso ou verda<strong>de</strong>iro e, <strong>de</strong>sta forma, uma terceira categoria, a <strong>de</strong> pares<br />

possíveis ou potenciais, <strong>de</strong>veria <strong>ser</strong> consi<strong>de</strong>rada na classificação <strong>de</strong> pares. Ou seja,<br />

pares abaixo <strong>de</strong> um certo escore limiar geral, e acima <strong>de</strong> um outro limiar geral<br />

<strong>de</strong>veriam <strong>ser</strong> manualmente revistos (Scheuren & Young, 1999). Em terceiro lugar,<br />

os autores utilizaram a teoria <strong>de</strong> teste <strong>de</strong> hipótese e <strong>de</strong>finiram que existem probabilida<strong>de</strong>s<br />

<strong>de</strong> erro envolvidas na <strong>de</strong>cisão <strong>de</strong> se classificar um par como um par verda<strong>de</strong>iro<br />

ou falso. Finalmente, reconheceram que um mecanismo era necessário na comparação<br />

<strong>de</strong> dois bancos <strong>de</strong> <strong>dados</strong>, com o objetivo <strong>de</strong> se evitar que todos os registros<br />

<strong>de</strong> um banco <strong>de</strong> <strong>dados</strong> fossem confrontados com todos outros registros do segundo<br />

banco, através da exigência <strong>de</strong> que, para que os registros fossem comparáveis,<br />

teriam que concordar exatamente em uma <strong>de</strong>terminada variável. Esse mecanismo<br />

é chamado <strong>de</strong> blocagem e nada mais é do que a partição estatística, ou uma mera<br />

divisão dos espaços a <strong>ser</strong>em comparados. Esta divisão <strong>de</strong>ve <strong>ser</strong> feita nos dois<br />

bancos <strong>de</strong> <strong>dados</strong>, cujos registros <strong>de</strong>vem <strong>ser</strong> <strong>pareados</strong> entre si. Além <strong>de</strong>stes<br />

postulados básicos que constituem a idéia geral do relacionamento probabilístico,<br />

ob<strong>ser</strong>va-se que, se um indivíduo em um banco <strong>de</strong> <strong>dados</strong> é representado por<br />

apenas um outro registro em um outro banco <strong>de</strong> <strong>dados</strong> o pareamento probabilístico<br />

se torna uma tarefa menos complexa (Newcombe et al., 1995; Kendrick et al.,<br />

1998; MacLeod et al., 1998). Nestes casos, uma vez que um par tenha sido formado<br />

e consi<strong>de</strong>rado o melhor (mais provável <strong>de</strong> <strong>ser</strong> correto) com base no maior escore<br />

geral <strong>de</strong> pareamento, consi<strong>de</strong>ra-se o processo <strong>de</strong> procura como terminado para<br />

ambos os registros que formaram o par. Assim, o conhecimento prévio <strong>de</strong>sta<br />

relação unívoca facilita o pareamento probabilístico. No entanto, <strong>po<strong>de</strong>m</strong> ainda<br />

existir pares consi<strong>de</strong>rados incertos, pois po<strong>de</strong> haver, para um <strong>de</strong>terminado registro,<br />

mais <strong>de</strong> um par possível, e esse conjunto <strong>de</strong> pares necessitaria <strong>de</strong> revisão manual,<br />

o que é viável quando se possuem bancos <strong>de</strong> <strong>dados</strong> <strong>de</strong> tamanho mo<strong>de</strong>rado, mas<br />

difícil no caso <strong>de</strong> uma enorme quantida<strong>de</strong> <strong>de</strong> pares. Os pares que necessitam <strong>de</strong><br />

revisão manual englobam pares errôneos. Pares errôneos <strong>ser</strong>iam aqueles formados<br />

pela combinação <strong>de</strong> um registro em um banco <strong>de</strong> <strong>dados</strong> com outro registro em<br />

outro banco <strong>de</strong> <strong>dados</strong> que, <strong>de</strong> fato, não correspon<strong>de</strong>m ao mesmo indivíduo.<br />

Po<strong>de</strong>riam surgir mais comumente, quando se tem ausência <strong>de</strong> informações para<br />

um indivíduo em um ou outro banco <strong>de</strong> <strong>dados</strong> (<strong>dados</strong> não <strong>de</strong>clarados), o que<br />

torna o relacionamento mais impreciso, por <strong>ser</strong> baseado em um menor número<br />

236 – CADERNOS SAÚDE COLETIVA, RIO DE JANEIRO, 14 (2): 233 - 250, 2006

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!