Tema 4 - Departamento de EstadÃstica - Universidad Carlos III de ...
Tema 4 - Departamento de EstadÃstica - Universidad Carlos III de ...
Tema 4 - Departamento de EstadÃstica - Universidad Carlos III de ...
You also want an ePaper? Increase the reach of your titles
YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.
<strong>Departamento</strong> <strong>de</strong> Estadística<strong>Universidad</strong> <strong>Carlos</strong> <strong>III</strong> <strong>de</strong> MadridBIOESTADISTICA (55 - 10536)Estudios <strong>de</strong> prevalencia (transversales)CONCEPTOS CLAVE1) Características <strong>de</strong>l diseño en un estudio <strong>de</strong> prevalencia, o transversal.2) Importancia <strong>de</strong>l mecanismo <strong>de</strong> muestro y selección <strong>de</strong>l tamaño muestral.3) Tipos y características <strong>de</strong> las medidas <strong>de</strong> prevalencia.4) Estrategias para el análisis <strong>de</strong> estudios transversales: Estimación vs.Comparación <strong>de</strong> prevalencias.1
1. INTRODUCCIONUn Estudio <strong>de</strong> Prevalencia es aquel en el que se examinan las relaciones entre las enfermeda<strong>de</strong>s o entrelas características relacionadas con la salud y otras variables <strong>de</strong> interés, <strong>de</strong>l modo en que existen en unapoblación y momento <strong>de</strong>terminados. La presencia o ausencia <strong>de</strong> la enfermedad y <strong>de</strong> las otras variables(o, si son <strong>de</strong> tipo cuantitativo, su nivel) se <strong>de</strong>terminan en cada miembro <strong>de</strong> la población estudiada o enuna muestra representativa en un momento dado.La relación entre una variable y la enfermedad pue<strong>de</strong> examinarse:1) En términos <strong>de</strong> la prevalencia <strong>de</strong> la enfermedad en diferentes subgrupos <strong>de</strong> población, <strong>de</strong>finidos<strong>de</strong> acuerdo con la presencia o ausencia (o nivel) <strong>de</strong> las variables.2) En términos <strong>de</strong> la presencia o ausencia (o nivel) <strong>de</strong> las variables en los individuos enfermos, encomparación con los sanos.En la figura siguiente se muestra una representación gráfica <strong>de</strong> un estudio transversal.Obsérvese que, en un estudio <strong>de</strong> prevalencia (o estudio transversal), lo que queda registrado formalmenteno es la inci<strong>de</strong>ncia <strong>de</strong> una enfermedad, sino su prevalencia. La secuencia temporal <strong>de</strong> causa a efecto noqueda necesariamente <strong>de</strong>terminada en un estudio <strong>de</strong> este tipo.Después <strong>de</strong>l proceso se selección, todos los sujetos participantes son examinados, observados, y/oencuestados acerca <strong>de</strong> la enfermedad, su nivel actual o pasado <strong>de</strong>l factor en estudio y otras variables <strong>de</strong>interés. En ocasiones los estudios transversales no utilizan muestreo probabilístico, en esos casos suvalor es limitado para <strong>de</strong>scribir la frecuencia <strong>de</strong> la enfermedad y <strong>de</strong> otras características en la poblaciónobjeto.2
2. MEDIDAS DE PREVALENCIAHemos revizado las medidas fundamentales para cuantificar la prevalencia: prevalencia puntual yprevalencia lápsica.1) La más utilizada <strong>de</strong> estas medidas es la Prevalencia Puntual (P), que no es más que laprobabilidad <strong>de</strong> que un individuo en una población presente una <strong>de</strong>terminada característica (porCtejemplo, enfermedad) en el tiempo t. Así, se estima por: Pˆt= , don<strong>de</strong> C t es el número <strong>de</strong>N tcasos prevalentes y N t es la población encuestada.2) La Prevalencia Lápsica (PL) no es más que la probabilidad <strong>de</strong> que un individuo <strong>de</strong> unapoblación sea un caso en cualquier momento <strong>de</strong>l período (t 0 , t). Se estima por:C(t C +0,t)0 I ( t0,t)PP ˆ( ,t)= = . Don<strong>de</strong> Ct0(to,t)N Nincluye los casos prevalentes C 0 y los casosinci<strong>de</strong>ntes I (to,t) .Raras veces la prevalencia tiene interés directo en aplicaciones etiológicas <strong>de</strong> la investigaciónepi<strong>de</strong>miológica. Puesto que la probabilidad <strong>de</strong> sobrevivir (o <strong>de</strong> curación) afecta a la prevalencia, losestudios transversales o estudios basados en casos prevalentes obtienen asociaciones que reflejan los<strong>de</strong>terminantes <strong>de</strong> la supervivencia (la cura) una vez que se pa<strong>de</strong>ce la enfermedad, así como las causas <strong>de</strong>tal enfermedad. Una supervivencia mejor, y por tanto, una prevalencia más alta, podrían estar realmenterelacionadas con la acción <strong>de</strong> factores preventivos que mitigasen <strong>de</strong> alguna manera la enfermedad, unavez que se produjese.2.1. Relación entre Inci<strong>de</strong>ncia y PrevalenciaAunque es evi<strong>de</strong>nte la prevalencia <strong>de</strong>pen<strong>de</strong> en parte <strong>de</strong> la inci<strong>de</strong>ncia, la relación funcional que seestablece entre ellas es bastante compleja. Sin embargo, si asumimos que la población está en posición<strong>de</strong> equilibrio, o sea, es estable y las tasas <strong>de</strong> prevalencia e inci<strong>de</strong>ncia permanecen constantes, pue<strong>de</strong>obtenerse una relación bastante sencilla.Bajo las condiciones <strong>de</strong> equilibrio la cantidad <strong>de</strong> casos inci<strong>de</strong>ntes I en un período (t 0 ,t) <strong>de</strong> duración 2t esigual a los casos salientes TC (casos que mueren por la enfermedad, o por otra causa, y casos que curan)durante el mismo período, o sea, I = TC.Tenemos que I = DI(N-C)2t, don<strong>de</strong> N es la cantidad <strong>de</strong> individuos <strong>de</strong> la población, y TC = TD×C×2t,C DIdon<strong>de</strong> TD es la tasa o <strong>de</strong>nsidad <strong>de</strong> salida y C los casos prevalentes, <strong>de</strong> don<strong>de</strong> obtenemos: = .N - C TDSi representamos las salidas <strong>de</strong> la enfermedad por un proceso Poisson, tenemos que TD es igual al inverso<strong>de</strong> la duración <strong>de</strong> la enfermedad D . Dividiendo por N y sustituyendo TC, obtenemos:DI DP =DI D + 1Si la prevalencia es pequeña (P < 0.1) se tiene una fórmula simplificada: P = DI D .3
3. DISEÑO DE UN ESTUDIO DE PREVALENCIALos principales puntos metodológicos a consi<strong>de</strong>rar en el diseño <strong>de</strong> un estudio <strong>de</strong> prevalencia son:a) Definir la población <strong>de</strong> referencia.b) Determinar si el estudio se realizará sobre el total <strong>de</strong> la población o en una muestra.c) Determinar el tamaño <strong>de</strong> la muestra poblacional y las formas <strong>de</strong> selección <strong>de</strong> la misma.d) Elaborar y validar los instrumentos y técnicas mediante los cuales se <strong>de</strong>terminará la presencia oausencia <strong>de</strong> las características <strong>de</strong> interés.e) Asegurar la comparabilidad <strong>de</strong> la información obtenida en los diferentes grupos.f) Determinar el tipo <strong>de</strong> análisis epi<strong>de</strong>miológico y estadístico <strong>de</strong> los datos.g) Determinar la conducta a seguir con los datos <strong>de</strong>tectados.Nos centraremos en los puntos c) y f)Veamos a continuación como se calculan los tamaños <strong>de</strong> muestra en los estudios <strong>de</strong> prevalencia paradistintas situaciones:1) Si el objetivo es estimar una proporción (P) en una población con una precisión absolutaespecificada se <strong>de</strong>berá "conocer":a) Proporción esperada en la población Pb) Nivel <strong>de</strong> confianza 100(1-)%c) Precisión absoluta requerida d2z1- /2 P(1 - P)Se utiliza en este caso la siguiente fórmula: n=2dLa mayoría <strong>de</strong> software estadístico, entre ellos el programa EpiDat utilizan a<strong>de</strong>más la siguienten0corrección: n= , don<strong>de</strong> n 0 se obtiene por la fórmula anterior y N es el tamaño <strong>de</strong> la población.1+n0N4
Ejemplo 1. Cálculo tamaño muestral con EpiDat, para estimar una prevalencia <strong>de</strong>l 50% (P=0.5) con unaprecisión <strong>de</strong>l 5% (d = 0.05) en una población con 10,000 habitantes (N=10000).5
2) Si el objetivo es probar que la proporción poblacional difiere <strong>de</strong> un valor dado P 0 se<strong>de</strong>berá "conocer":a) Valor <strong>de</strong> la proporción bajo la hipótesis nula, P 0b) Valor anticipado <strong>de</strong> la proporción P ac) Nivel <strong>de</strong> significación 100%d) Potencia <strong>de</strong>l test 100(1-ß)%e) Hipótesis alternativas: P a > P 0 , P a
4) Si el objetivo es probar que dos proporciones poblacionales son diferentes se <strong>de</strong>berá"conocer":a) Hipótesis nula: P 1 -P 2 = 0.b) Proporciones esperadas <strong>de</strong> las poblaciones P 1 y P 2c) Nivel <strong>de</strong> confianza 100(1-)%d) Potencia <strong>de</strong>l test 100(1-ß)%e) Hipótesis alternativas: P 1 -P 2 > 0, P 1 -P 2 < 0 ó P 1 -P 2 0Se utilizan en este caso las siguientes fórmulas:z1- 2 Pm(1 Pm)+ z1-V Para pruebas <strong>de</strong> una sola cola: n=2 , don<strong>de</strong> Pm =(P1 +P 2 )/2 y( P1-P2)z1- /2 2 Pm(1 - Pm)+ z1-V V=P 1 (1-P 1 ) + P 2 (1-P 2 ). Para pruebas <strong>de</strong> dos colas: n=2.( P1-P2)De nuevo en la mayoría <strong>de</strong> software estadístico, como el programa EpiDat, permite el cálculo para unanprueba <strong>de</strong> dos colas utilizando la corrección <strong>de</strong> Yates: n = 1+4 241+n|P1- P22 .|2Ejemplo 4: Volvamos al ejemplo anterior, y supongamos ahora que P 1 = 0.6, P 2 = 0.5, L=0.05, y ß=0.1,se podría calcular el tamaño muestral utilizando EpiDat7
4. ANÁLISIS DE ESTUDIOS TRANSVERSALESLa disposición <strong>de</strong> los resultados <strong>de</strong> un estudio <strong>de</strong> prevalencia se presenta en la siguiente tabla:Variable DependienteVariable In<strong>de</strong>pendiente Presente Ausente Total TasaPresente A b m 1 a/m 1Ausente C d m 2 c/m 2Total n 1 n 2 n n 1 /na/m1En los estudios transversales pue<strong>de</strong> calcularse la Razón <strong>de</strong> Prevalencias por RR = . c/mCuando se tiene una población en estado <strong>de</strong> equilibrio se pue<strong>de</strong> estimar la razón <strong>de</strong> <strong>de</strong>nsidad(1 )<strong>de</strong> inci<strong>de</strong>ncia RDI, utilizando la relación entre DI y P:ID1 T 2 P1/ - P1RDI = = ID2 T 1 P2/ (1 - P2) , oequivalentemente: ORP = RDIT 1 que pue<strong>de</strong> estimarse por adT 2bc .24.1. Plan <strong>de</strong> análisis estadístico para estudios <strong>de</strong> proporcionesUn posible esquema <strong>de</strong>l plan <strong>de</strong> análisis estadístico para estudios <strong>de</strong> proporciones.9
Método 1: Estimación <strong>de</strong> una proporción (Mo<strong>de</strong>lo binomial)Supongamos que una experiencia se repite n veces, y cada vez la probabilidad p <strong>de</strong> ocurrencia <strong>de</strong> unsuceso dado (por ejemplo, enfermedad, exposición) sea siempre la misma. Si las experiencias sucesivasson in<strong>de</strong>pendientes, po<strong>de</strong>mos asumir un mo<strong>de</strong>lo binomial.Si en n repeticiones in<strong>de</strong>pendientes se observa X veces el suceso <strong>de</strong> interés, se tienen los siguientesresultados:Xpˆ = es un estimador sin sesgo <strong>de</strong> p.np(1- p)Su varianza es igual a y se estima pornpˆ(1- p) ˆ.nEl intervalo exacto <strong>de</strong> para p es <strong>de</strong> difícil cálculo y por tanto se utiliza un intervalo <strong>de</strong>confianza aproximado <strong>de</strong>finido por ( p,p ):n 2 2ˆ(1 ˆ)p= pˆ+ z - zp - p +zn zn n n2 2+ 2 4 yn 2 2ˆ(1 ˆ)p= p ˆ + z + zp - p +zn zn n n2 2+ 2 4 Si n 30 el intervalo aproximado para p será con:pˆ(1 - pˆ)p= p ˆ + z , don<strong>de</strong> z = z 1-/2 .np= pˆ- zpˆ(1 - pˆ)nyTambién po<strong>de</strong>mos encontrar este método en forma <strong>de</strong> test estadístico <strong>de</strong> p respecto a una1|p - P|z=2n.proporción P dada:P (1 P )nEjemplo 5: Supongamos que el tamaño <strong>de</strong> la muestra es n = 257 y se observan 23 casos, entonces conEpiDat se obtiene:10
Ejemplo 6: Siguiendo con el ejemplo anterior también podríamos contrastar si H 0 : P=0.10, entonces conEpiDat se obtiene:Lo cual nos lleva a concluir que hay evi<strong>de</strong>ncias suficientes (p=0.6474) para aceptar H 0 .11
Método 2: Estimación <strong>de</strong> una proporción (Mo<strong>de</strong>lo hipergeométrico)El mo<strong>de</strong>lo hipergeométrico parte <strong>de</strong> suponer que en una población <strong>de</strong> tamaño N, hay N 1 enfermos y N-N 1individuos sanos. Se toma una muestra <strong>de</strong> n personas que contiene n 1 enfermos y n-n 1 sanos. Se <strong>de</strong>seaestimar la proporción N 1 /N, o sea, la tasa <strong>de</strong> prevalencia <strong>de</strong> cierta población. Bajo el mo<strong>de</strong>lohipergeométrico se tienen los siguientes resultados:n 1 /n es un estimador sin sesgo <strong>de</strong> N 1 /N.N-nn1n11La varianza <strong>de</strong> n 1 /n se estima por: 1 , y si n/N 0.10 entonces la varianzaN-1nnnn1 n11se aproxima por: 1 .n n nEl intervalo exacto para p es <strong>de</strong> difícil cálculo y por tanto utilizaremos un intervalo <strong>de</strong>confianza aproximado <strong>de</strong>finido por ( p,p ):n1 N-nn1n11p= - z 1-n N -1n n nn1 N-nn1n11, y p= + z 1- .n N -1n n nMétodo 3: Mo<strong>de</strong>los discretos (Dos-binomial e hipergeométrico)a) Mo<strong>de</strong>lo Dos-binomial: Consi<strong>de</strong>remos un estudio transversal en el que <strong>de</strong> los n 1 sujetos expuestos aun factor están enfermos a individuos, y <strong>de</strong> los n 2 no expuestos b son enfermos, entonces <strong>de</strong> acuerdo almo<strong>de</strong>lo binomial la probabilidad <strong>de</strong> tener a casos expuestos y b casos no expuestos es igual a:n1 ac n2bd p (1 ) (1 )1p1 p 2p , que es el producto <strong>de</strong> las probabilida<strong>de</strong>s binomiales para cada uno2 a b<strong>de</strong> los grupos expuestos y no expuestos. El cálculo <strong>de</strong> probabilida<strong>de</strong>s para la comprobación <strong>de</strong> hipótesis esdifícil y ambiguo, lo cual exige uso <strong>de</strong> paquetes estadísticos.b) Mo<strong>de</strong>lo Hipergeométrico: Si consi<strong>de</strong>ramos que los marginales <strong>de</strong> la Tabla 2×2 son fijos po<strong>de</strong>mosutilizar el mo<strong>de</strong>lo hipergeométrico, entonces la probabilidad <strong>de</strong> obtener a o más casos en los expuestosesta dada por:n1 n2min( m1, n1) k m1-kPr( K a ) = k=a n m1La regla <strong>de</strong> <strong>de</strong>cisión es rechazar que existe asociación entre el factor y la enfermedad H 0 si laprobabilidad Pr(K a) .12
Tablas <strong>de</strong> contingencia : Tablas 2x2 simplesTipo <strong>de</strong> estudio : TransversalNivel <strong>de</strong> confianza: 95,0%TablaEnfermos Sanos Total------------ -------- -------- --------Expuestos 4 4 8No expuestos 386 1250 1636------------ -------- -------- --------Total 390 1254 1644Prevalencia <strong>de</strong> la enfermedad Estimación IC(95,0%)---------------------------------------- ---------- --------- ---------En expuestos 0,500000 - -En no expuestos 0,235941 - -Razón <strong>de</strong> prevalencias 2,119171 1,054016 4,260736---------------------------------------- ---------- --------- ---------Prevalencia <strong>de</strong> exposición Estimación IC(95,0%)---------------------------------------- ---------- --------- ---------En enfermos 0,010256 - -En no enfermos 0,003190 - -Razón <strong>de</strong> prevalencias 3,215385 0,807922 12,796660---------------------------------------- ---------- --------- ---------14
ORIC(95,0%)--------- --------- ---------3,238342 0,806111 13,009196 (Woolf)0,883539 11,869266 (Cornfield)Prueba Ji-cuadrado <strong>de</strong> asociación Estadístico Valor p---------------------------------------- --------- ---------Sin corrección 3,0677 0,0799Corrección <strong>de</strong> Yates 1,7820 0,181915