11.07.2015 Views

Métodos de selección de variables en estudios de asociación ...

Métodos de selección de variables en estudios de asociación ...

Métodos de selección de variables en estudios de asociación ...

SHOW MORE
SHOW LESS

You also want an ePaper? Increase the reach of your titles

YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.

<strong>Métodos</strong> <strong>de</strong> <strong>selección</strong> <strong>de</strong> <strong>variables</strong> <strong>en</strong> <strong>estudios</strong><strong>de</strong> <strong>asociación</strong> g<strong>en</strong>ética. Aplicación a un estudio<strong>de</strong> g<strong>en</strong>es candidatos <strong>en</strong> Enfermedad <strong>de</strong>ParkinsonMáster <strong>en</strong> Técnicas Estadísticas. Proyecto Fin <strong>de</strong> MásterAlumna:Pilar Cacheiro MartínezDirectoras:Carm<strong>en</strong> Cadarso SuárezM. Luz Calle RosinganaMaría Jesús Sobrido GómezA Coruña, Julio 2011


Se pres<strong>en</strong>ta el trabajo “<strong>Métodos</strong> <strong>de</strong> <strong>selección</strong> <strong>de</strong> <strong>variables</strong> <strong>en</strong> <strong>estudios</strong> <strong>de</strong> <strong>asociación</strong>g<strong>en</strong>ética. Aplicación a un estudio <strong>de</strong> g<strong>en</strong>es candidatos <strong>en</strong> Enfermedad <strong>de</strong> Parkinson”como proyecto fin <strong>de</strong> Máster <strong>de</strong>l Máster <strong>en</strong> Técnicas Estadísticas e InvestigaciónOperativa <strong>de</strong> la alumna Pilar Cacheiro Martínez. Este trabajo está dirigido por laprofesora Carm<strong>en</strong> Cadarso Suárez (Departam<strong>en</strong>to <strong>de</strong> Estadística e InvestigaciónOperativa, Universida<strong>de</strong> <strong>de</strong> Santiago <strong>de</strong> Compostela), la profesora M. Luz CalleRosingana (Departam<strong>en</strong>t <strong>de</strong> Biologia <strong>de</strong> Sistemes, Universitat <strong>de</strong> Vic) y la Dra. MaríaJesús Sobrido Gómez (Coordinadora <strong>de</strong>l Grupo <strong>de</strong> Neurog<strong>en</strong>ética <strong>de</strong> la FundaciónPública Galega <strong>de</strong> Medicina X<strong>en</strong>ómica).En conformidad, autorizan la pres<strong>en</strong>tación <strong>de</strong>l proyecto,A Coruña, 1 <strong>de</strong> Julio <strong>de</strong> 2011Fdo: Carm<strong>en</strong> Cadarso SuárezFdo: M.Luz Calle RosinganaFdo: María Jesús Sobrido Gómez


Resum<strong>en</strong>En los <strong>estudios</strong> <strong>de</strong> <strong>asociación</strong> g<strong>en</strong>ética es habitual trabajar con un elevado número <strong>de</strong><strong>variables</strong> <strong>en</strong> relación al número <strong>de</strong> observaciones. Las <strong>variables</strong> predictoras no sonsiempre in<strong>de</strong>p<strong>en</strong>di<strong>en</strong>tes <strong>de</strong>bido a ciertas peculiarida<strong>de</strong>s <strong>de</strong> los datos g<strong>en</strong>éticos. Eneste contexto es necesario incorporar técnicas <strong>de</strong> <strong>selección</strong> <strong>de</strong> <strong>variables</strong>. En estetrabajo exploramos dos aproximaciones, <strong>en</strong> primer lugar una estrategia <strong>en</strong> dos pasos,que implica <strong>selección</strong> <strong>de</strong> <strong>variables</strong> <strong>en</strong> un contexto univariante, evaluando la <strong>asociación</strong><strong>de</strong> cada variable predictora con la respuesta <strong>de</strong> manera in<strong>de</strong>p<strong>en</strong>di<strong>en</strong>te, y la posteriorincorporación <strong>de</strong> las <strong>variables</strong> seleccionadas para ajustar un mo<strong>de</strong>lo <strong>de</strong> regresiónlogística multivariante. En segundo lugar aplicamos un método <strong>de</strong> regresiónp<strong>en</strong>alizada –LASSO-. Los mo<strong>de</strong>los obt<strong>en</strong>idos se compararon <strong>en</strong> base a su capacidadpredictiva y su habilidad para i<strong>de</strong>ntificar <strong>variables</strong> causales. Para alcanzar este objetivorealizamos un estudio <strong>de</strong> simulación, don<strong>de</strong> se contemplaron difer<strong>en</strong>tes esc<strong>en</strong>arios yadicionalm<strong>en</strong>te empleamos datos reales proce<strong>de</strong>ntes <strong>de</strong> un estudio <strong>de</strong> <strong>asociación</strong> <strong>de</strong>g<strong>en</strong>es candidatos <strong>en</strong> Enfermedad <strong>de</strong> Parkinson.


Cont<strong>en</strong>idos1. Introducción 62. Estudios <strong>de</strong> <strong>asociación</strong> g<strong>en</strong>ética 72.1. Descripción <strong>de</strong> los datos g<strong>en</strong>éticos ………………………………………… 72.2. Enfermeda<strong>de</strong>s complejas …………………………………………………... 142.3. Tipos <strong>de</strong> <strong>estudios</strong> <strong>de</strong> <strong>asociación</strong> …………………………………………… 152.4. Problemática <strong>de</strong> los <strong>estudios</strong> <strong>de</strong> <strong>asociación</strong> ……………………………… 162.5. Contexto <strong>de</strong>l trabajo. Antece<strong>de</strong>ntes ……………………………………….. 173. <strong>Métodos</strong> <strong>de</strong> <strong>selección</strong> <strong>de</strong> <strong>variables</strong> y evaluación <strong>de</strong> mo<strong>de</strong>los 203.1. Selección <strong>de</strong> <strong>variables</strong> mediante test <strong>de</strong> <strong>asociación</strong> …………………….. 203.1.1. Test Chi Cuadrado ………………………………………………. 203.1.2. Cochran Armitage Tr<strong>en</strong>d Test ………………………………….. 213.1.3. Likelihood Ratio Test …………………………………………….. 223.2. Selección <strong>de</strong> <strong>variables</strong> <strong>en</strong> regresion logística ……………………………. 223.2.1. Best subset ……………………………………………………….. 253.2.2. Regresión stepwise ………………………………………………. 253.2.3. Regresión p<strong>en</strong>alizada ……………………………………………. 263.2.3.1. LASSO …………………………………………………. 263.2.3.2. Ridge ……………………………………………………. 273.2.3.3. Elastic net ………………………………………………. 273.3. Validación cruzada ………………………………………………………….. 28


3.4. Curvas ROC ………………………………………………………………… 284. Estudio <strong>de</strong> simulación 314.1. Descripción <strong>de</strong>l estudio <strong>de</strong> simulación …………………………………… 314.2. Resultados y discusión ……………………………………………………. 335. Aplicación a un estudio <strong>en</strong> <strong>en</strong>fermedad <strong>de</strong> Parkinson 465.1. Descripción <strong>de</strong> los datos …………………………………………………… 465.2. Análisis exploratorio ………………………………………………………… 485.2.1. Análisis <strong>de</strong> <strong>asociación</strong> univariante ……………………………… 485.2.2. Estudio <strong>de</strong>l <strong>de</strong>sequilibrio <strong>de</strong> ligami<strong>en</strong>to ………………………….485.3. Selección <strong>de</strong> <strong>variables</strong> y evaluación <strong>de</strong> la capacidad predictiva ……….. 535.4 Resultados y discusión ………………………………………………………. 566. Conclusiones 667. Refer<strong>en</strong>cias 68


Introducción1. IntroducciónLos <strong>estudios</strong> <strong>de</strong> <strong>asociación</strong> g<strong>en</strong>ética ti<strong>en</strong><strong>en</strong> como objetivo i<strong>de</strong>ntificar factores <strong>de</strong>susceptibilidad a una <strong>de</strong>terminada <strong>en</strong>fermedad. En muchas ocasiones estos <strong>estudios</strong>implican el análisis <strong>de</strong> un elevado número <strong>de</strong> <strong>variables</strong> predictoras, que pu<strong>de</strong> llegar aser muy superior al número <strong>de</strong> observaciones. Habitualm<strong>en</strong>te este análisis se realiza<strong>en</strong> un contexto univariante, i<strong>de</strong>ntificando aquellas <strong>variables</strong> informativas empleando untest <strong>de</strong> <strong>asociación</strong>. Analizarlos <strong>en</strong> un contexto multivariante permite t<strong>en</strong>er <strong>en</strong> cu<strong>en</strong>ta elimpacto <strong>de</strong> unos marcadores sobre otros, pero a su vez plantea difer<strong>en</strong>tes retos: elm<strong>en</strong>cionado problema <strong>de</strong> la dim<strong>en</strong>sionalidad y el hecho <strong>de</strong> que estas <strong>variables</strong> puedanestar correlacionadas. Uno <strong>de</strong> los métodos paramétricos multi-locus empleados es laregresión logística, aunque <strong>de</strong>bido a estas particularida<strong>de</strong>s <strong>de</strong> los <strong>estudios</strong> <strong>de</strong><strong>asociación</strong> no siempre pue<strong>de</strong> aplicarse <strong>de</strong> manera estándar.Este trabajo aborda el problema <strong>de</strong> la dim<strong>en</strong>sionalidad, revisando difer<strong>en</strong>tes técnicas<strong>de</strong> <strong>selección</strong> <strong>de</strong> <strong>variables</strong> <strong>en</strong> el contexto <strong>de</strong> la regresión logística. Para ello se hallevado a cabo <strong>en</strong> primer lugar un estudio <strong>de</strong> simulación y posteriorm<strong>en</strong>te se hanaplicado esas técnicas a datos proce<strong>de</strong>ntes <strong>de</strong> un estudio <strong>de</strong> <strong>asociación</strong> <strong>en</strong><strong>en</strong>fermedad <strong>de</strong> Parkinson.Así mediante esta aproximación se ha pret<strong>en</strong>dido satisfacer un doble objetivo:1. Objetivo metodológico: Comparar dos métodos <strong>de</strong> <strong>selección</strong> <strong>de</strong> <strong>variables</strong>evaluando la capacidad predictiva <strong>de</strong> los mo<strong>de</strong>los obt<strong>en</strong>idos y su habilidadpara <strong>de</strong>tectar polimorfismos causales.2. Objetivo aplicado: La i<strong>de</strong>ntificación <strong>de</strong> variantes g<strong>en</strong>éticas implicadas <strong>en</strong> el<strong>de</strong>sarrollo la <strong>en</strong>fermedad permitirá avanzar <strong>en</strong> el conocimi<strong>en</strong>to <strong>de</strong> las basesmoleculares <strong>de</strong> la <strong>en</strong>fermedad <strong>de</strong> Parkinson, con posible impacto <strong>en</strong> el<strong>de</strong>sarrollo <strong>de</strong> nuevos fármaco y terapias y a<strong>de</strong>más la posibilidad <strong>de</strong> <strong>de</strong>sarrollarmo<strong>de</strong>los predictivos basados <strong>en</strong> perfiles g<strong>en</strong>éticos.6


Estudios <strong>de</strong> <strong>asociación</strong> g<strong>en</strong>ética2. Estudios <strong>de</strong> <strong>asociación</strong> g<strong>en</strong>ética2.1 Descripción <strong>de</strong> los datos g<strong>en</strong>éticosEl ADN se distribuye a lo largo <strong>de</strong> los cromosomas, que <strong>en</strong> la especie humana son 22autosomas o pares <strong>de</strong> cromosomas homólogos y un par <strong>de</strong> cromosomas sexuales.Cada uno <strong>de</strong> los miembros <strong>de</strong> un par es heredado <strong>de</strong> uno <strong>de</strong> los dos prog<strong>en</strong>itores. Unlocus – loci <strong>en</strong> plural- se refiere a una región específica <strong>en</strong> un cromosoma. Dado qu<strong>en</strong>uestras células son diploi<strong>de</strong>s, hay dos posibles secu<strong>en</strong>cias <strong>de</strong> ADN heredadasin<strong>de</strong>p<strong>en</strong>di<strong>en</strong>tem<strong>en</strong>te para un locus <strong>de</strong>terminado y un individuo: alelos. Estos dos alelosforman el g<strong>en</strong>otipo <strong>de</strong> ese individuo para ese locus <strong>en</strong> particular.En la mayor parte <strong>de</strong>l g<strong>en</strong>oma, la secu<strong>en</strong>cia <strong>de</strong> ADN es idéntica para todos loshumanos, por lo tanto se trataría <strong>de</strong> loci monomórficos. Para una proporción <strong>de</strong> loci sehan <strong>de</strong>tectado una serie <strong>de</strong> mutaciones que se han mant<strong>en</strong>ido a lo largo <strong>de</strong>l tiempo yque consist<strong>en</strong> <strong>en</strong> un cambio <strong>de</strong> base <strong>en</strong> las secu<strong>en</strong>cias <strong>de</strong> ADN, lo que implica queexistan difer<strong>en</strong>tes alelos para un locus <strong>de</strong>terminado – loci polimórficos.En los <strong>estudios</strong> <strong>de</strong> <strong>asociación</strong> poblacionales los polimorfismos más habituales objeto<strong>de</strong> estudio son los SNP – Single Nucleoti<strong>de</strong> Polymorphisms- pronunciado “snip”. UnSNP <strong>de</strong>scribe un cambio <strong>en</strong> una sola base, una <strong>de</strong> las bases es sustituida por otra.Para que verda<strong>de</strong>ram<strong>en</strong>te pueda consi<strong>de</strong>rarse un polimorfismo, la variación <strong>de</strong>beaparecer al m<strong>en</strong>os <strong>en</strong> el 1% <strong>de</strong> la población.Estos SNPs, objeto <strong>de</strong> nuestro estudio son bialélicos, hay 2 bases posibles <strong>en</strong> el sitiocorrespondi<strong>en</strong>te <strong>de</strong>ntro <strong>de</strong> un g<strong>en</strong>. De modo que un SNP vi<strong>en</strong>e <strong>de</strong>terminado por dosbases, que se <strong>de</strong>nominan alelos. Estas bases, también <strong>de</strong>nominadas nucleótidos,pue<strong>de</strong>n ser <strong>de</strong> 4 tipos: a<strong>de</strong>nina (A), citosina (C), guanina (G) y timina (T). Aunque <strong>en</strong>teoría pue<strong>de</strong> haber 4 variaciones difer<strong>en</strong>tes <strong>de</strong>bido a la exist<strong>en</strong>cia <strong>de</strong> 4 tipos, <strong>en</strong> lapráctica, <strong>en</strong> una posición <strong>de</strong>terminada <strong>de</strong> la secu<strong>en</strong>cia g<strong>en</strong>ómica suel<strong>en</strong> observarsesólo 2 variantes. (Figura 2.1).Por lo tanto el g<strong>en</strong>otipo <strong>de</strong> un individuo para un <strong>de</strong>terminado marcador vi<strong>en</strong>e dado porla combinación <strong>de</strong> los dos alelos <strong>en</strong> ese locus. Si <strong>de</strong>nominamos los dos posibles aleloscomo “A” y “a”, asumi<strong>en</strong>do “a” el alelo más frecu<strong>en</strong>te o wild type y “A” el alelo m<strong>en</strong>osfrecu<strong>en</strong>te, t<strong>en</strong>emos tres posibles g<strong>en</strong>otipos: el g<strong>en</strong>otipo “AA” será el homocigoto parael alelo m<strong>en</strong>os frecu<strong>en</strong>te, “Aa” el heterocigoto y “aa” el homocigoto para el alelo másfrecu<strong>en</strong>te.7


Estudios <strong>de</strong> <strong>asociación</strong> g<strong>en</strong>éticaFigura 2.1 Single Nucleoti<strong>de</strong> Polymorphism (SNPs)Individuo 1 cromosoma paterno AGCTTGAC T CCATGAcromosoma maternoAGCTTGAC T CCATGAHomocigoto para elalelo más frecu<strong>en</strong>teIndividuo 2 cromosoma paterno AGCTTGAC T CCATGAHeterocigotocromosoma maternoAGCTTGAC G CCATGAIndividuo 3 cromosoma paterno AGCTTGAC G CCATGAHeterocigotocromosoma maternoAGCTTGAC T CCATGAIndividuo 4 cromosoma paterno AGCTTGAC G CCATGAcromosoma maternoAGCTTGAC G CCATGAHomocigoto para elalelo m<strong>en</strong>os frecu<strong>en</strong>teComo hemos indicado, para cada SNP hay tres posibles g<strong>en</strong>otipos, y po<strong>de</strong>mosevaluar difer<strong>en</strong>tes mo<strong>de</strong>los g<strong>en</strong>éticos bajo los que contemplar esos g<strong>en</strong>otipos. Unmo<strong>de</strong>lo g<strong>en</strong>ético <strong>de</strong>scribe la relación <strong>en</strong>tre el g<strong>en</strong>otipo <strong>de</strong> un individuo y el f<strong>en</strong>otipo orasgo. En el contexto <strong>de</strong> los <strong>estudios</strong> <strong>de</strong> <strong>asociación</strong> g<strong>en</strong>ética, el f<strong>en</strong>otipo se refiere a siun individuo está o no afectado por una <strong>de</strong>terminada <strong>en</strong>fermedad, lo <strong>de</strong>nominamos Y,si<strong>en</strong>do Y=1 afectados (casos), Y=0 no afectados (controles). En el caso <strong>de</strong><strong>en</strong>fermeda<strong>de</strong>s m<strong>en</strong><strong>de</strong>lianas los mo<strong>de</strong>los g<strong>en</strong>éticos son <strong>de</strong>terminísticos – el g<strong>en</strong>otipo<strong>de</strong>termina exactam<strong>en</strong>te el f<strong>en</strong>otipo. En el caso <strong>de</strong> las <strong>en</strong>fermeda<strong>de</strong>s complejas, larelación <strong>en</strong>tre el g<strong>en</strong>otipo y el f<strong>en</strong>otipo es probabilística, el g<strong>en</strong>otipo influye <strong>en</strong> lasprobabilida<strong>de</strong>s <strong>de</strong> <strong>de</strong>sarrollar la <strong>en</strong>fermedad.Dado el g<strong>en</strong>otipo <strong>de</strong> un individuo (G), el efecto probabilístico <strong>de</strong>l locus <strong>en</strong> el f<strong>en</strong>otipo Yvi<strong>en</strong>e <strong>de</strong>scrito por P(Y|G), que se <strong>de</strong>nomina función <strong>de</strong> p<strong>en</strong>etrancia y <strong>de</strong>fine laprobabilidad <strong>de</strong> <strong>en</strong>fermedad condicionada al g<strong>en</strong>otipo [1].8


Estudios <strong>de</strong> <strong>asociación</strong> g<strong>en</strong>éticaLos cuatro mo<strong>de</strong>los g<strong>en</strong>éticos más habituales son los sigui<strong>en</strong>tes:Mo<strong>de</strong>lo codominante. Es el más g<strong>en</strong>eral. Se consi<strong>de</strong>ran los tres g<strong>en</strong>otipos porseparado suponi<strong>en</strong>do que cada uno proporciona un riesgo <strong>de</strong> <strong>en</strong>fermedad difer<strong>en</strong>te.P(Y = 1|AA) ≠ P(Y = 1|Aa) ≠ P(Y = 1|aa)Mo<strong>de</strong>lo dominante. Sólo es necesaria una copia <strong>de</strong>l alelo <strong>de</strong> riesgo para t<strong>en</strong>er unefecto sobre el g<strong>en</strong>otipo. Supone que una única copia <strong>de</strong>l alelo “A” es sufici<strong>en</strong>te paramodificar el riesgo y poseer dos copias <strong>de</strong>l alelo lo modifica <strong>en</strong> igual magnitud.P(Y = 1|AA) = P(Y = 1|Aa)Mo<strong>de</strong>lo recesivo. Son necesarias dos copias <strong>de</strong>l alelo <strong>de</strong> riesgo para modificar elriesgo <strong>de</strong> <strong>en</strong>fermedad.P(Y = 1|aa) = P(Y = 1|Aa)Mo<strong>de</strong>lo aditivo. Dep<strong>en</strong>di<strong>en</strong>do <strong>de</strong> la escala, la probabilidad <strong>de</strong>l g<strong>en</strong>otipo heterocigotoestán <strong>en</strong>tre la <strong>de</strong> los dos homocigotos. El riesgo asociado al heterocigoto esintermedio <strong>en</strong>tre los dos homocigotos.En escala lineal:P(Y = 1|Aa) = 0.5(P(Y = 1|AA) + P(Y = 1|aa))En escala log (multiplicativa):P(Y = 1|Aa) = P(Y = 1|AA)P(Y = 1|aa)Estos g<strong>en</strong>otipos, que constituy<strong>en</strong> <strong>variables</strong> categóricas son recodificadas como<strong>variables</strong> numéricas o indicadoras. En la tabla 2.1 se muestra la codificación <strong>de</strong> losg<strong>en</strong>otipos bajo los difer<strong>en</strong>tes mo<strong>de</strong>los g<strong>en</strong>éticos.9


Estudios <strong>de</strong> <strong>asociación</strong> g<strong>en</strong>éticaG<strong>en</strong>otipo Codominante Dominante Recesivo Aditivoaa 0 0 0 0 0Aa 1 0 1 0 1AA 0 1 1 1 2Tabla 2.1 Codificación <strong>de</strong> g<strong>en</strong>otiposEquilibrio Hardy-Weinberg (HWE)El equilibrio HW hace refer<strong>en</strong>cia a la in<strong>de</strong>p<strong>en</strong><strong>de</strong>ncia <strong>de</strong> alelos <strong>en</strong> un locus <strong>en</strong>tre los doscromosomas homólogos. En concreto establece la relación <strong>en</strong>tre las frecu<strong>en</strong>ciasalélicas y g<strong>en</strong>otípicas <strong>en</strong> una población lo sufici<strong>en</strong>tem<strong>en</strong>te gran<strong>de</strong>, sin <strong>selección</strong>,mutación o migración. Si consi<strong>de</strong>ramos un locus con dos alelos “A” y “a” confrecu<strong>en</strong>cias pA = p y pa = 1 − p = q, si estos dos alelos que porta un individuo seheredan in<strong>de</strong>p<strong>en</strong>di<strong>en</strong>tem<strong>en</strong>te, el número <strong>de</strong> copias <strong>de</strong>l alelo A sigue una distribuciónbinomial Bin(2,p). Por lo tanto las probabilida<strong>de</strong>s <strong>de</strong> los g<strong>en</strong>otipos AA, Aa y aa seránp 2 , 2pq y q 2 respectivam<strong>en</strong>te. La probabilidad <strong>de</strong> que un alelo aparezca <strong>en</strong> unhomólogo es in<strong>de</strong>p<strong>en</strong>di<strong>en</strong>te <strong>de</strong> que alelo esté pres<strong>en</strong>te <strong>en</strong> el segundo homólogo.Dados los g<strong>en</strong>otipos, las frecu<strong>en</strong>cias alélicas observadas y esperadas se pue<strong>de</strong>ncomparar empleando difer<strong>en</strong>tes estadísticos (Chi Cuadrado, Test <strong>de</strong> Fisher,..).En un estudio <strong>de</strong> <strong>asociación</strong> es necesario verificar que los SNPs g<strong>en</strong>otipados se<strong>en</strong>cu<strong>en</strong>tran <strong>en</strong> equilibrio HW, ya que <strong>de</strong>sviaciones <strong>de</strong> este equilibrio pue<strong>de</strong>n serindicativas <strong>de</strong> errores <strong>de</strong> g<strong>en</strong>otipado o bi<strong>en</strong> <strong>de</strong> la exist<strong>en</strong>cia <strong>de</strong> factores que podríanafectar a las frecu<strong>en</strong>cias alélicas (por ejemplo, migración reci<strong>en</strong>te) difer<strong>en</strong>tes <strong>de</strong>l rasgo<strong>en</strong> estudio. Si no se examina pue<strong>de</strong> dar lugar a asociaciones espurias. Lacomprobación <strong>de</strong>l HWE se realiza sobre la población control, ya que <strong>de</strong>sviaciones <strong>de</strong>lHWE <strong>en</strong> casos pue<strong>de</strong>n ser indicativos <strong>de</strong> una <strong>asociación</strong>.Desequilibrio <strong>de</strong> Ligami<strong>en</strong>toEl Equilibrio Hardy-Weinberg hacía refer<strong>en</strong>cia a la in<strong>de</strong>p<strong>en</strong><strong>de</strong>ncia <strong>de</strong> alelos <strong>en</strong> un locus<strong>en</strong>tre cromosomas homólogos, El Desequilibrio <strong>de</strong> Ligami<strong>en</strong>to (Linkage disequilibrium10


Estudios <strong>de</strong> <strong>asociación</strong> g<strong>en</strong>éticaLD) se refiere a la <strong>asociación</strong> <strong>en</strong>te alelos <strong>de</strong> difer<strong>en</strong>tes loci <strong>en</strong> uno <strong>de</strong> los cromosomashomólogos.LD hace por lo tanto refer<strong>en</strong>cia a la disposición no casual <strong>de</strong> alelos <strong>en</strong> dos loci, <strong>de</strong>modo que estos alelos serán heredados conjuntam<strong>en</strong>te a lo largo <strong>de</strong> múltiplesg<strong>en</strong>eraciones. En la figura 2.2 se ilustra este concepto. Consi<strong>de</strong>ramos un locusmarcador (T). En un <strong>de</strong>terminado mom<strong>en</strong>to ocurre una nueva mutación <strong>en</strong> el g<strong>en</strong>oma.El cromosoma <strong>en</strong> el que se produce la mutación conti<strong>en</strong>e el background g<strong>en</strong>ético <strong>de</strong> lamutación. Al transmitirse a la <strong>de</strong>sc<strong>en</strong><strong>de</strong>ncia a lo largo <strong>de</strong> varias g<strong>en</strong>eraciones, elf<strong>en</strong>óm<strong>en</strong>o <strong>de</strong> recombinación provocará que alelos <strong>en</strong> loci marcadores que están lejos<strong>de</strong> la mutación se intercambi<strong>en</strong>. Como resultado el background g<strong>en</strong>ético asociado auna mutación será cada vez más pequeño. En g<strong>en</strong>eral cuanto más cerca está elmarcador <strong>de</strong> la nueva variante, más fuerte será el LD. Cuando el marcador y la nuevavariante están muy juntos, la recombinación habrá ocurrido a una tasa tan baja que elalelo marcador y la nueva variante cosegregarán, incluso <strong>en</strong>tre familias [2].El concepto <strong>de</strong> LD es fundam<strong>en</strong>tal <strong>en</strong> los <strong>estudios</strong> <strong>de</strong> <strong>asociación</strong> g<strong>en</strong>ética, ya queimplica que no t<strong>en</strong>emos que llegar a g<strong>en</strong>otipar la variante causal para <strong>de</strong>tectar<strong>asociación</strong>, simplem<strong>en</strong>te t<strong>en</strong>emos que g<strong>en</strong>otipar muy cerca <strong>de</strong> la verda<strong>de</strong>ra variante.Figura 2.2 Desequilibrio <strong>de</strong> ligami<strong>en</strong>to11


Estudios <strong>de</strong> <strong>asociación</strong> g<strong>en</strong>éticaPor lo tanto es <strong>de</strong> especial interés <strong>de</strong>terminar si un grupo <strong>de</strong> alelos están <strong>en</strong> LD.Mediante la caracterización <strong>de</strong> regiones con alto LD (LD <strong>en</strong> una región con múltiplesSNPs pue<strong>de</strong> <strong>de</strong>terminarse simplem<strong>en</strong>te como la media <strong>de</strong> todas las medidas <strong>de</strong> LDdos a dos), el g<strong>en</strong>oma pue<strong>de</strong> dividirse <strong>en</strong> bloques <strong>de</strong> <strong>de</strong>sequilibrio <strong>de</strong> ligami<strong>en</strong>to(bloques haplotípicos).El proyecto Internacional HapMap [3] es una herrami<strong>en</strong>ta indisp<strong>en</strong>sable <strong>en</strong> los<strong>estudios</strong> <strong>de</strong> <strong>asociación</strong>. En este proyecto se g<strong>en</strong>otiparon inicialm<strong>en</strong>te 269 individuos<strong>de</strong> 4 poblaciones con difer<strong>en</strong>te orig<strong>en</strong> étnico. Proporciona un mapa <strong>de</strong> LD <strong>de</strong> millones<strong>de</strong> SNPs a lo largo <strong>de</strong>l g<strong>en</strong>oma y permite, a la hora <strong>de</strong> diseñar un estudio <strong>de</strong><strong>asociación</strong>, seleccionar para una región <strong>de</strong>l g<strong>en</strong>oma <strong>de</strong> interés tagSNPs que cubranun bloque haplotípico. El concepto <strong>de</strong> tag-SNPs se ilustra <strong>en</strong> la figura 2.3.Figura 2.3 Tag- SNPs según International HapMap Consortium [3]Exist<strong>en</strong> difer<strong>en</strong>tes estadísticos para calcular LD. Si consi<strong>de</strong>remos dos loci bialélicos,<strong>de</strong> modo que el primer locus ti<strong>en</strong>e los alelos “A” y “a” y el segundo locus los alelos“B” y “b”, exist<strong>en</strong> 4 haplotipos posibles: “AB”, “ab” ,”Ab” y “aB” como se muestra <strong>en</strong> lafigura 2.4.12


Estudios <strong>de</strong> <strong>asociación</strong> g<strong>en</strong>éticaFigura 2.4 Haplotipos <strong>en</strong> dos loci bialélicosLas frecu<strong>en</strong>cia haplotípicas se muestran <strong>en</strong> la tabla 2.2. Esta tabla reflejaría lasfrecu<strong>en</strong>cias para cada haplotipo <strong>en</strong> el caso <strong>de</strong> que los loci fues<strong>en</strong> in<strong>de</strong>p<strong>en</strong>di<strong>en</strong>tes,don<strong>de</strong> p AB = p A p B , p Ab = p A p b , p aB = p a p B y p ab = p a p b repres<strong>en</strong>tan la probabilidad<strong>de</strong> observar cada haplotipo y p A , p a , p B y p b repres<strong>en</strong>tan la freuc<strong>en</strong>cia <strong>de</strong> cadaalelo. Desviaciones <strong>de</strong> esta tabla serían una evi<strong>de</strong>ncia <strong>de</strong> correlación.AaB p AB p aB p Bb p Ab p ab p bp A p a 1Tabla 2.2. Frecu<strong>en</strong>cias haplotípicas bajo supuesto <strong>de</strong> loci in<strong>de</strong>p<strong>en</strong>di<strong>en</strong>tesLewontin & Kojima [4] propusieron el coefici<strong>en</strong>te <strong>de</strong> <strong>de</strong>sequilibrio <strong>de</strong> ligami<strong>en</strong>to Dcomo:D = p AB − p A p B , o equival<strong>en</strong>tem<strong>en</strong>teD = p AB p ab − p AB p aBEl <strong>de</strong>sequilibrio <strong>de</strong> ligami<strong>en</strong>to es por lo tanto una medida <strong>de</strong> la <strong>asociación</strong> <strong>en</strong>tre dosloci que captura cómo <strong>de</strong> aleatoriam<strong>en</strong>te se distribuy<strong>en</strong> los alelos. El estadístico Dpres<strong>en</strong>ta el inconv<strong>en</strong>i<strong>en</strong>te <strong>de</strong> que su magnitud <strong>de</strong>p<strong>en</strong><strong>de</strong> <strong>de</strong> las frecu<strong>en</strong>cias <strong>de</strong> los13


Estudios <strong>de</strong> <strong>asociación</strong> g<strong>en</strong>éticaalelos <strong>en</strong> los dos loci. Por este motivo Lewontin [5] estandarizó D al máximo valorposible que pue<strong>de</strong> tomar:D′ = D/Dmax, don<strong>de</strong> Dmax es el máximo valor <strong>de</strong> D para las frecu<strong>en</strong>cias alélicasdadas.Dmax = min p A p B , p a p b si D < 0 y min p A p b , p a p B si D > 0D′ toma valores <strong>en</strong>tre 0 y 1 y permite establecer el grado <strong>de</strong> <strong>de</strong>sequilibrio <strong>de</strong> ligami<strong>en</strong>torelativo al máximo valor posible que pue<strong>de</strong> tomar. Normalm<strong>en</strong>te se emplea el valorabsoluto <strong>de</strong> D′Otra medida <strong>de</strong> <strong>de</strong>sequilibrio <strong>de</strong> ligami<strong>en</strong>to la proporciona r 2 , coefici<strong>en</strong>te <strong>de</strong>correlación [6]:r 2 = D 2 /(p A p a p B p b )r 2 varía <strong>en</strong>tre 0 y 1, r 2 = 1 implica LD perfecto , indicando una relación <strong>de</strong>terminista.Por lo tanto el g<strong>en</strong>otipado <strong>de</strong> dos SNPs <strong>en</strong> alto grado <strong>de</strong> <strong>de</strong>sequilibrio <strong>de</strong> ligami<strong>en</strong>to esredundante.2.2 Enfermeda<strong>de</strong>s complejasLas <strong>en</strong>fermeda<strong>de</strong>s m<strong>en</strong><strong>de</strong>lianas son aquellas causadas por mutaciones <strong>en</strong> un únicog<strong>en</strong> y con un mo<strong>de</strong>lo <strong>de</strong> her<strong>en</strong>cia simple. Estas mutaciones g<strong>en</strong>eralm<strong>en</strong>te pres<strong>en</strong>tanfrecu<strong>en</strong>cias bajas <strong>en</strong> la mayoría <strong>de</strong> poblaciones y a<strong>de</strong>más pres<strong>en</strong>tan un espectroalélico complejo, <strong>de</strong> modo que múltiples mutaciones <strong>en</strong> un único g<strong>en</strong> pue<strong>de</strong>n conduciral mismo f<strong>en</strong>otipo. Las <strong>en</strong>fermeda<strong>de</strong>s complejas no muestran her<strong>en</strong>cia m<strong>en</strong><strong>de</strong>lianaatribuible a un único locus. Fr<strong>en</strong>te a las <strong>en</strong>fermeda<strong>de</strong>s monogénicas, las<strong>en</strong>fermeda<strong>de</strong>s complejas están causadas por la acción <strong>de</strong> múltiples loci, cada uno conun pequeño efecto, a<strong>de</strong>más estos loci pue<strong>de</strong>n interaccionar <strong>en</strong>tre ellos y a su vezinteraccionar con factores ambi<strong>en</strong>tales.El objetivo <strong>de</strong> los <strong>estudios</strong> <strong>de</strong> <strong>asociación</strong> es i<strong>de</strong>ntificar esos loci y caracterizar lascomplejas relaciones que se establec<strong>en</strong> <strong>en</strong>tre ellos.14


Estudios <strong>de</strong> <strong>asociación</strong> g<strong>en</strong>éticaLos <strong>estudios</strong> <strong>de</strong> <strong>asociación</strong> trabajan bajo la hipótesis “Enfermedad Común – VarianteComún” [7,8] bajo la cual los factores g<strong>en</strong>éticos <strong>de</strong> susceptibilidad a <strong>en</strong>fermeda<strong>de</strong>scomplejas serán alelos comunes <strong>en</strong> la población. Actualm<strong>en</strong>te, los resultados pococoncluy<strong>en</strong>tes <strong>de</strong> los <strong>estudios</strong> <strong>de</strong> <strong>asociación</strong> realizados hasta la fecha, que <strong>en</strong> sumayoría tan sólo han permitido i<strong>de</strong>ntificar variantes con tamaños <strong>de</strong> efecto muypequeños, llevan a p<strong>en</strong>sar que es probable que las <strong>en</strong>fermeda<strong>de</strong>s complejas esténcausadas por una conjunción <strong>de</strong> variantes comunes y raras [9,10]. I<strong>de</strong>ntificar todas lasvariantes que contribuy<strong>en</strong> al riesgo <strong>de</strong> <strong>de</strong>sarrollar una <strong>de</strong>terminada <strong>en</strong>fermedad siguesi<strong>en</strong>do un reto.2.3 Tipos <strong>de</strong> Estudios <strong>de</strong> AsociaciónExist<strong>en</strong> dos aproximaciones a los <strong>estudios</strong> <strong>de</strong> <strong>asociación</strong> g<strong>en</strong>éticaEstudios poblacionalesEstudios caso-control <strong>de</strong> individuos no relacionados. Se i<strong>de</strong>ntifica un set <strong>de</strong> casosdiagnosticados según unos criterios especificados (por ejemplo para un estudio <strong>en</strong>migraña los criterios <strong>de</strong> la International Headache Society, <strong>en</strong> <strong>en</strong>fermedad <strong>de</strong>Parkinson los criterios <strong>de</strong>l PDBank) y una muestra in<strong>de</strong>p<strong>en</strong>di<strong>en</strong>te <strong>de</strong> individuos noafectados <strong>de</strong> la misma población. Se comparan las frecu<strong>en</strong>cias g<strong>en</strong>otípicas y/o alélicas<strong>en</strong> ambos grupos para i<strong>de</strong>ntificar variantes asociadas con la <strong>en</strong>fermedad objeto <strong>de</strong>estudio.Dos <strong>de</strong> los principales inconv<strong>en</strong>i<strong>en</strong>tes <strong>de</strong> este tipo <strong>de</strong> <strong>estudios</strong> son 1) la dificultad para<strong>en</strong>contrar variantes raras y 2) la posibilidad <strong>de</strong> falsos positivos por problemas <strong>de</strong>estratificación <strong>en</strong> la población (población está dividida <strong>en</strong> difer<strong>en</strong>tes estratos y exist<strong>en</strong>probabilida<strong>de</strong>s distintas <strong>de</strong> ser seleccionado como caso o control según el estrato).Estudios basados <strong>en</strong> familias.Emplean información <strong>de</strong> miembros <strong>de</strong> una misma familia. Se comparan las frecu<strong>en</strong>cias<strong>de</strong> alelos transmitidos vs. no transmitidos. Ti<strong>en</strong><strong>en</strong> la v<strong>en</strong>taja <strong>de</strong> que eliminan elproblema <strong>de</strong> estratificación, como inconv<strong>en</strong>i<strong>en</strong>te ti<strong>en</strong><strong>en</strong> m<strong>en</strong>or po<strong>de</strong>r estadístico (TDT,también FBAT que incorpora información <strong>de</strong> otros miembros <strong>de</strong> la familia).15


Estudios <strong>de</strong> <strong>asociación</strong> g<strong>en</strong>éticaRequiere consi<strong>de</strong>raciones estadísticas específicas. Es importante el concepto <strong>de</strong> fasealélica - alineami<strong>en</strong>to <strong>de</strong> nucleótidos <strong>en</strong> uno <strong>de</strong> los cromosomas homólogos. Ésta sepue<strong>de</strong> <strong>de</strong>terminar al cont<strong>en</strong>er información <strong>de</strong> miembros <strong>de</strong> una familia.En función <strong>de</strong>l número <strong>de</strong> SNPs analizados y la hipótesis <strong>de</strong> partida po<strong>de</strong>mosdifer<strong>en</strong>ciar <strong>en</strong>tre:Estudios <strong>de</strong> g<strong>en</strong>es candidatos: Se analizan aquellos g<strong>en</strong>es sobre los que existeuna hipótesis a priori acerca <strong>de</strong> la funcionalidad, <strong>de</strong> modo que existe una ciertaevi<strong>de</strong>ncia experim<strong>en</strong>tal <strong>de</strong> que una <strong>de</strong>terminada ruta biológica pue<strong>de</strong> estarinvolucrada <strong>en</strong> el <strong>de</strong>sarrollo <strong>de</strong> una <strong>en</strong>fermedad. Normalm<strong>en</strong>te se seleccionanvarios SNPs para cada g<strong>en</strong>. Para la <strong>selección</strong> <strong>de</strong> SNPs se emplea el concepto<strong>de</strong> <strong>de</strong>sequilibrio <strong>de</strong> ligami<strong>en</strong>to, que se ha explicado <strong>en</strong> el apartado anterior,mediante el empleo <strong>de</strong> tag-SNPs.G<strong>en</strong>ome Wi<strong>de</strong> Association Studies (GWAS). Son <strong>estudios</strong> <strong>de</strong> <strong>asociación</strong> <strong>de</strong>todo el g<strong>en</strong>oma. En este caso no hay hipótesis previa. Se emplean chips <strong>de</strong>g<strong>en</strong>otipado g<strong>en</strong>éricos que cubr<strong>en</strong> parte o la totalidad <strong>de</strong>l g<strong>en</strong>oma, con mayor om<strong>en</strong>or cobertura 500k – varios millones <strong>de</strong> SNPs. El g<strong>en</strong>oma humanocompr<strong>en</strong><strong>de</strong> aproximadam<strong>en</strong>te 3*10 9 bases, <strong>de</strong> modo que se pue<strong>de</strong> capturargran parte <strong>de</strong> la variabilidad <strong>de</strong>l g<strong>en</strong>oma mediante el concepto <strong>de</strong> bloques <strong>de</strong><strong>de</strong>sequilibrio <strong>de</strong> ligami<strong>en</strong>to.2.4 Problemática <strong>de</strong> los <strong>estudios</strong> <strong>de</strong> <strong>asociación</strong>La premisa <strong>de</strong> los <strong>estudios</strong> <strong>de</strong> <strong>asociación</strong> es que son variantes comunes (SNPs confrecu<strong>en</strong>cias superiores al 1%) las que modifican el riesgo <strong>en</strong> la mayoría <strong>de</strong><strong>en</strong>fermeda<strong>de</strong>s complejas. A partir <strong>de</strong> los resultados <strong>de</strong> GWAS, la mayoría <strong>de</strong> lasvariantes que han mostrado <strong>asociación</strong> significativa con un <strong>de</strong>terminado f<strong>en</strong>otipopres<strong>en</strong>tan OR <strong>en</strong>tre 1.1 y 1.3.Estos SNPs constituy<strong>en</strong> variantes <strong>de</strong> predisposición (o están <strong>en</strong> LD con dichasvariantes) que aum<strong>en</strong>tan el riesgo <strong>de</strong> los portadores <strong>en</strong> un 10-30% respecto al riesgo<strong>de</strong> los no portadores. Existe la posibilidad <strong>de</strong> que haya otras variantes no <strong>de</strong>tectadasporque aum<strong>en</strong>tan el riesgo <strong>en</strong> valores más pequeños, quizás tan bajos como el 1%, Laalternativa <strong>de</strong> que el increm<strong>en</strong>to <strong>en</strong> el riesgo esté provocado por múltiples variantes16


Estudios <strong>de</strong> <strong>asociación</strong> g<strong>en</strong>éticararas con frecu<strong>en</strong>cias inferiores haría que fues<strong>en</strong> muy difíciles <strong>de</strong> i<strong>de</strong>ntificar con estetipo <strong>de</strong> diseño.De la multitud <strong>de</strong> GWAS realizados hasta la fecha, sólo se han i<strong>de</strong>ntificado unaspocas variantes comunes implicadas y los SNPs asociados explican tan sólo unapequeña fracción <strong>de</strong>l riesgo g<strong>en</strong>ético, incluso si se consi<strong>de</strong>ran como un agregado.Exist<strong>en</strong> por lo tanto, serias dificulta<strong>de</strong>s para <strong>de</strong>scifrar el compon<strong>en</strong>te g<strong>en</strong>ético <strong>de</strong> las<strong>en</strong>fermeda<strong>de</strong>s complejas. Algunas <strong>de</strong> las razones <strong>de</strong> las limitaciones <strong>de</strong> los GWASpara <strong>de</strong>tectar factores g<strong>en</strong>éticos <strong>de</strong> susceptibilidad son las sigui<strong>en</strong>tes:Variantes raras. Que las variantes <strong>de</strong> susceptibilidad sean variantes queaparec<strong>en</strong> <strong>en</strong> m<strong>en</strong>os <strong>de</strong>l 1% <strong>de</strong> la población, podrían aparecer tan sólo <strong>en</strong>algunos individuos o familias, por lo tanto estas variantes sólo se observarían<strong>en</strong> una pequeña fracción <strong>de</strong> los afectados.Heterog<strong>en</strong>eidad locus. Cualquiera <strong>de</strong> un número <strong>de</strong> g<strong>en</strong>es o loci confieresusceptibilidad a la <strong>en</strong>fermedad <strong>de</strong> manera in<strong>de</strong>p<strong>en</strong>di<strong>en</strong>te.Heterog<strong>en</strong>eidad alélica. Difer<strong>en</strong>tes alelos <strong>en</strong> un mismo g<strong>en</strong> están asociadoscon la <strong>en</strong>fermedad <strong>de</strong> manera in<strong>de</strong>p<strong>en</strong>di<strong>en</strong>te.Epistasis. Ser portador <strong>de</strong> un <strong>de</strong>terminado g<strong>en</strong>otipo conferirá susceptibilidadhasta un grado dictado por la pres<strong>en</strong>cia <strong>de</strong> otros g<strong>en</strong>otipos.Interacciones g<strong>en</strong>-ambi<strong>en</strong>te. Determinados g<strong>en</strong> o g<strong>en</strong>es ti<strong>en</strong><strong>en</strong> efecto sólo <strong>en</strong>pres<strong>en</strong>cia <strong>de</strong> <strong>de</strong>terminados factores ambi<strong>en</strong>tales.Her<strong>en</strong>cia poligénica. Un número <strong>de</strong> variantes <strong>en</strong> difer<strong>en</strong>tes loci ti<strong>en</strong><strong>en</strong> quepres<strong>en</strong>tarse antes <strong>de</strong> que t<strong>en</strong>ga un efecto sobre el riesgo <strong>de</strong> <strong>en</strong>fermedad. Unf<strong>en</strong>otipo pue<strong>de</strong> v<strong>en</strong>ir <strong>de</strong>terminado por múltiples variantes <strong>de</strong> pequeño efecto alo largo <strong>de</strong> una ruta biológica.2.5 Contexto <strong>de</strong>l trabajo. Antece<strong>de</strong>ntesUno <strong>de</strong> los principales problemas a abordar <strong>en</strong> los <strong>estudios</strong> <strong>de</strong> <strong>asociación</strong> g<strong>en</strong>ética,principalm<strong>en</strong>te GWAS, es el <strong>de</strong> la dim<strong>en</strong>sionalidad (“curse of dim<strong>en</strong>sionality”) [11],existe un elevado número <strong>de</strong> <strong>variables</strong> predictoras <strong>en</strong> relación al número <strong>de</strong>observaciones. Estas <strong>variables</strong> están pot<strong>en</strong>cialm<strong>en</strong>te correlacionadas y a<strong>de</strong>más17


Estudios <strong>de</strong> <strong>asociación</strong> g<strong>en</strong>éticapue<strong>de</strong>n interactuar (<strong>en</strong> un s<strong>en</strong>tido biológico o estadístico) <strong>en</strong> su <strong>asociación</strong> con lavariable respuesta.En los últimos años se han <strong>de</strong>sarrollado nuevas técnicas o adaptado otras exist<strong>en</strong>tespara esto tipo <strong>de</strong> datos, que permit<strong>en</strong> abordar el problema <strong>de</strong> la dim<strong>en</strong>sionalidad(CART, Randomforest, LogicRegression, MDR,…). Algunas <strong>de</strong> ellas permit<strong>en</strong> reducirla dim<strong>en</strong>sión, otras buscar interacciones, y otras realizan las dos acciones <strong>de</strong> manerasimultánea.Una <strong>de</strong> las aproximaciones para abordar este problema es mediante técnicas <strong>de</strong><strong>selección</strong> <strong>de</strong> <strong>variables</strong>. Esta <strong>selección</strong> <strong>de</strong> <strong>variables</strong> se pue<strong>de</strong> hacer empleandométodos univariantes o multivariantes.1) Univariantes. Es la aproximación más habitual <strong>en</strong> este tipo <strong>de</strong> <strong>estudios</strong>. Seestablec<strong>en</strong> unos criterios para medir la <strong>asociación</strong> <strong>de</strong> cada una <strong>de</strong> las <strong>variables</strong>predictoras con la respuesta, <strong>de</strong>terminar las más significativas <strong>en</strong> base a un umbralpreestablecido. Esta aproximación univariante <strong>de</strong> <strong>selección</strong> <strong>de</strong> <strong>variables</strong> pres<strong>en</strong>tavarios inconv<strong>en</strong>i<strong>en</strong>tes:Analizar las distintas <strong>variables</strong> predictoras <strong>en</strong> un contexto univariante nopermite contemplar la exist<strong>en</strong>cia <strong>de</strong> posibles correlaciones. A<strong>de</strong>más, <strong>de</strong> estemodo no se pue<strong>de</strong>n <strong>de</strong>tectar patrones complejos <strong>de</strong> manera que no es posiblemedir el efecto combinado <strong>de</strong> difer<strong>en</strong>tes loci y se infraestima la contribucióng<strong>en</strong>ética <strong>en</strong> pres<strong>en</strong>cia <strong>de</strong> interacciones [12]..El problema <strong>de</strong> las comparaciones múltiples. Al estudiar la <strong>asociación</strong> <strong>de</strong>difer<strong>en</strong>tes marcadores <strong>de</strong> manera in<strong>de</strong>p<strong>en</strong>di<strong>en</strong>te la probabilidad <strong>de</strong> error tipo Ise increm<strong>en</strong>ta y hay que realizar ajustes para corregir el nivel <strong>de</strong> significación(Bonferroni, False Discovery Rate (FDR),..). Esta corrección implica que laprobabilidad <strong>de</strong> <strong>de</strong>tectar un efecto cuando realm<strong>en</strong>te está pres<strong>en</strong>te disminuya,<strong>de</strong> modo que se pue<strong>de</strong>n estar perdi<strong>en</strong>do asociaciones débiles.2) Multivariantes. Las <strong>variables</strong> predictoras son consi<strong>de</strong>radas <strong>en</strong> un contextomultivariante. Permit<strong>en</strong> a su vez la posibilidad <strong>de</strong> incorporar interacciones <strong>en</strong>trelas <strong>variables</strong>.En este trabajo compararemos estas dos aproximaciones <strong>en</strong> el contexto <strong>de</strong> regresiónlogística múltiple. En primer lugar emplearemos un método <strong>de</strong> <strong>selección</strong> univariante18


Estudios <strong>de</strong> <strong>asociación</strong> g<strong>en</strong>éticamediante una estrategia <strong>en</strong> dos pasos: primero se seleccionan las <strong>variables</strong> <strong>en</strong> función<strong>de</strong> los resultados <strong>de</strong> un test <strong>de</strong> <strong>asociación</strong> indiviudal, a continuación aquellas <strong>variables</strong>que pres<strong>en</strong>tan <strong>asociación</strong> significativa con la variable respuesta serán incorporaradasa un mo<strong>de</strong>lo <strong>de</strong> regresión logística multivariante. En segundo lugar emplearemos unmétodo particular <strong>de</strong> regresión p<strong>en</strong>alizada, Least Absolute Shrinkage and SelectionOperator (LASSO)[13]. La regresión p<strong>en</strong>alizada ha sido aplicada <strong>en</strong> difer<strong>en</strong>tes<strong>estudios</strong> reci<strong>en</strong>tes <strong>de</strong> <strong>asociación</strong> g<strong>en</strong>ética [14,15,16]. Este método supone unaalternativa a los mo<strong>de</strong>los <strong>de</strong> regresión habituales, que bajo los supuestosm<strong>en</strong>cionados (elevado número <strong>de</strong> predictoras <strong>en</strong> relación al número <strong>de</strong> observacionesunido a la posibilidad <strong>de</strong> correlación <strong>en</strong>tre <strong>variables</strong> <strong>de</strong>bido al <strong>de</strong>sequilibrio <strong>de</strong>ligami<strong>en</strong>to) suel<strong>en</strong> pres<strong>en</strong>tar problemas.19


<strong>Métodos</strong> <strong>de</strong> <strong>selección</strong> <strong>de</strong> <strong>variables</strong> y evaluación <strong>de</strong> mo<strong>de</strong>los3. <strong>Métodos</strong> <strong>de</strong> <strong>selección</strong> <strong>de</strong> <strong>variables</strong> y evaluación <strong>de</strong> mo<strong>de</strong>los3.1. Selección <strong>de</strong> <strong>variables</strong> mediante test <strong>de</strong> <strong>asociación</strong>En un estudio <strong>de</strong> <strong>asociación</strong> g<strong>en</strong>ética caso-control la información <strong>de</strong>l g<strong>en</strong>otipo <strong>de</strong> losindividuos se pue<strong>de</strong> resumir <strong>en</strong> una tabla 2 x k, con k=3 g<strong>en</strong>otipos posibles, como laque se muestra <strong>en</strong> la tabla 3.1.Exist<strong>en</strong> difer<strong>en</strong>tes test <strong>de</strong> <strong>asociación</strong> para analizar este tipo <strong>de</strong> tablas, es <strong>de</strong>cir, paraevaluar la <strong>asociación</strong> individual <strong>de</strong> cada SNP con la respuesta.aa Aa AA TotalCasos r 0 r 1 r 2 rControles s 0 s 1 s 2 sTotal n 0 n 1 n 2 nTabla 3.1 Distribución <strong>de</strong> g<strong>en</strong>otipos <strong>en</strong> un estudio caso-control3.1.1. Test Chi CuadradoSigui<strong>en</strong>do la notación <strong>de</strong> la Tabla 3.1, y si<strong>en</strong>do x i = i el número <strong>de</strong> alelos A que poseeun individuo, con i = 0,1,2, el test χ 2 vi<strong>en</strong>e <strong>de</strong>terminado por:χ 2 =2i=0r i − n i r/n 2+n i r/n2i=0s i − n i s/n 2n i s/nEste estadístico sigue una distribución Chi cuadrado con dos grados <strong>de</strong> libertad ( χ 22).En este caso hemos supuesto un mo<strong>de</strong>lo codominante, para testar otros mo<strong>de</strong>losg<strong>en</strong>éticos creariamos tablas <strong>de</strong> conting<strong>en</strong>cia 2x2 agrupando las columnas. Del mismomodo si quisiéramos emplear las frecu<strong>en</strong>cia alélicas <strong>en</strong> lugar <strong>de</strong> g<strong>en</strong>ótipicas tambiénobt<strong>en</strong>dríamos una tabla <strong>de</strong> conting<strong>en</strong>cia 2x2 como se muestra <strong>en</strong> la tabla 3.2.20


<strong>Métodos</strong> <strong>de</strong> <strong>selección</strong> <strong>de</strong> <strong>variables</strong> y evaluación <strong>de</strong> mo<strong>de</strong>losaa AA TotalCasos 2r 0 + r 1 r 1 + 2r 2 2rControles 2s 0 + s 1 s 1 + 2s 2 2sTotal 2n 0 + n 1 n 1 + 2n 2 2nTabla 3.2 Distribución <strong>de</strong> alelos <strong>en</strong> un estudio caso-control3.1.2. Cochran Armitage Tr<strong>en</strong>d TestEl test <strong>de</strong> t<strong>en</strong><strong>de</strong>ncia <strong>de</strong> Cochran-Armitage [17] comprueba la t<strong>en</strong><strong>de</strong>ncia <strong>en</strong>proporciones binomiales a lo largo <strong>de</strong> niveles <strong>de</strong> un factor o covariable bajo un mo<strong>de</strong>loaditivo:P Y = 1 X = β 0 + β 1 XSe emplea <strong>en</strong> el caso <strong>de</strong> tablas <strong>de</strong> conting<strong>en</strong>cia <strong>en</strong> don<strong>de</strong> una variable ti<strong>en</strong>e 2 nivelesy la otra variable es ordinal. Aplicado a <strong>estudios</strong> <strong>de</strong> <strong>asociación</strong> g<strong>en</strong>ética que empleang<strong>en</strong>otipos, comprueba si la probabilidad <strong>de</strong> <strong>en</strong>fermedad aum<strong>en</strong>ta linealm<strong>en</strong>te con elg<strong>en</strong>otipo.Este test se emplea por lo tanto con datos categóricos para establecer la pres<strong>en</strong>cia <strong>de</strong><strong>asociación</strong> <strong>en</strong>tre una variable con 2 categorías y otro variable con k categorías.Modifica el test Chi Cuadrado para incorporar un supuesto or<strong>de</strong>n <strong>en</strong> los efectos <strong>de</strong> lask categorías sobre la segunda variable. Se aplica este test a datos <strong>de</strong> la forma <strong>de</strong> unatabla <strong>de</strong> conting<strong>en</strong>cia 2x k (<strong>en</strong> nuestro caso k=3, número posible <strong>de</strong> g<strong>en</strong>otipos) comola mostrada <strong>en</strong> la tabla 3.1. Sigui<strong>en</strong>do esta notación adoptamos la <strong>de</strong>scripción <strong>de</strong>lestadístico [18]:Si<strong>en</strong>do x i = i el número <strong>de</strong> alelos A que posee un individuo, para i = 0,1,2 el test <strong>de</strong>Cochran Armitage se pue<strong>de</strong> expresar como U 2 /Var(U) , don<strong>de</strong>2U = 1 ni=0x isr i − rs i21


<strong>Métodos</strong> <strong>de</strong> <strong>selección</strong> <strong>de</strong> <strong>variables</strong> y evaluación <strong>de</strong> mo<strong>de</strong>losBajo la hipótesis nula <strong>de</strong> no <strong>asociación</strong>:2var(U) = rsn 3 n x i 2 n i − x 2 i n ii=02i=02La distribución asintótica <strong>de</strong> Z = U/ Var(U) es N(0,1), <strong>de</strong> modo que el estadístico esZ 2 , que sigue una distribución χ 123.1.3. Likelihood Ratio TestEl Likelihood Ratio Test (LRT) o Test <strong>de</strong> Razón <strong>de</strong> Verosimilitud compara las logverosimilitu<strong>de</strong>s<strong>de</strong> dos mo<strong>de</strong>los: m 1 (mo<strong>de</strong>lo completo) y m 0 (mo<strong>de</strong>lo reducido o nulo):LRT = 2(logLikelihood (m 0 ) − logLikelihood (m 1 ))Este estadístico sigue una distribución χ 2 con grados <strong>de</strong> libertad igual a la difer<strong>en</strong>cia elnúmero <strong>de</strong> parámetros <strong>en</strong>tre los dos mo<strong>de</strong>los.En este caso compara las log-verosimilitu<strong>de</strong>s <strong>de</strong>l mo<strong>de</strong>lo nulo y <strong>de</strong>l mo<strong>de</strong>lo con cadauna <strong>de</strong> las <strong>variables</strong> (SNPs).3.2. Selección <strong>de</strong> <strong>variables</strong> <strong>en</strong> regresión logísticaLos mo<strong>de</strong>los <strong>de</strong> regresión logística son una herrami<strong>en</strong>ta habitual <strong>en</strong> <strong>estudios</strong> <strong>de</strong>epi<strong>de</strong>miología g<strong>en</strong>ética para tratar <strong>de</strong> i<strong>de</strong>ntificar factores g<strong>en</strong>éticos <strong>de</strong> susceptibilidad auna <strong>de</strong>terminada <strong>en</strong>fermedad.Parti<strong>en</strong>do <strong>de</strong> un mo<strong>de</strong>lo <strong>de</strong> regresión linealE Y x = β 0 + β 1 xEn el caso <strong>de</strong> datos dicotómicos emplearemoseβ 0+β 1 xπ x = E Y x =1 + e β 0+β 1 xLa transformación logit es <strong>de</strong>finida, <strong>en</strong> términos <strong>de</strong> π x , como:22


<strong>Métodos</strong> <strong>de</strong> <strong>selección</strong> <strong>de</strong> <strong>variables</strong> y evaluación <strong>de</strong> mo<strong>de</strong>losg x = lnπ x1 − π x = β 0 + β 1 xLa estimación <strong>de</strong> parámetros se realiza mediante máxima verosimilitud. De manerag<strong>en</strong>eral este método estima los valores <strong>de</strong> los parámetros que maximizan laprobabilidad <strong>de</strong> obt<strong>en</strong>er los datos observados. Para aplicar este método empleamos lafunción <strong>de</strong> verosimilitud, que expresa la probabilidad <strong>de</strong> los datos observados comofunción <strong>de</strong> los parámetros <strong>de</strong>sconocidos. Los estimadores <strong>de</strong> máxima verosimilitudson aquellos valores que maximizan están función.A continuación se <strong>de</strong>scribe el proceso <strong>de</strong> máxima verosimilitud para la regresiónlogística simple, es <strong>de</strong>cir una sola <strong>variables</strong> predictora x.Codificando Y como 0 y 1, la expresión <strong>de</strong> π x proporciona, para un valor <strong>de</strong> β =(β 0 , β 1 ), el vector <strong>de</strong> parámetros, la probabilidad condicionada <strong>de</strong> que Y sea igual a 1dado x, es <strong>de</strong>cir P(Y = 1|x). Del mismo modo 1- π x nos da la probabilidadcondicionada <strong>de</strong> Y igual a 0 dado x, P(Y = 0|x).Así para aquellos pares (x i , y i ) don<strong>de</strong> y i = 1 la contribución a la función <strong>de</strong>verosimilitud es π(x i ), y para los pares don<strong>de</strong> y i = 0, la contribución es 1- π(x i ).Po<strong>de</strong>mos expresar la contribución <strong>de</strong>l par (x i , y i ) comoπ(x i ) y i 1 − π(x i ) 1−y iDado que se asume que las observaciones son in<strong>de</strong>p<strong>en</strong>di<strong>en</strong>tes, la función <strong>de</strong>verosimilitud se obti<strong>en</strong>e como el producto <strong>de</strong> los términos dados <strong>en</strong> la expresiónanterior:l β =ni=1π(x i ) y i 1 − π(x i ) 1−y iEl principio <strong>de</strong> máxima verosimilitud establece que la estimación <strong>de</strong> β será el valor quemaximice la anterior expresión. Aplicando logaritmo <strong>de</strong>finimos la log-verosimilitud:nL β = ln⁡[l β ] = y i ln π x i + 1 − y i ln 1 − π(x i )i=123


<strong>Métodos</strong> <strong>de</strong> <strong>selección</strong> <strong>de</strong> <strong>variables</strong> y evaluación <strong>de</strong> mo<strong>de</strong>losPara <strong>en</strong>contrar el valor <strong>de</strong> β que maximiza L β difer<strong>en</strong>ciamos L β respecto a β 0 y β 1igualando las expresiones resultantes a 0. Así se obti<strong>en</strong><strong>en</strong> las ecuaciones <strong>de</strong>verosimilitud:y i − π(x i ) = 0x i y i − π(x i ) = 0En el caso <strong>de</strong> regresión logística múltiple, don<strong>de</strong> t<strong>en</strong>emos un número p <strong>de</strong> <strong>variables</strong>in<strong>de</strong>p<strong>en</strong>di<strong>en</strong>tes,x ´ = (x 1 , x 2 , … x p ), la función logit vi<strong>en</strong>e dada por la ecuacióng x = β 0 + β 1 x 1 + β 2 x 2 + ⋯ + β p x pY el mo<strong>de</strong>lo <strong>de</strong> regresión logística:eg xπ x =1 + e g xPor lo tanto la función <strong>de</strong> verosimilitud es prácticam<strong>en</strong>te idéntica a la <strong>de</strong>scrita, tan solocambia la <strong>de</strong>finición <strong>de</strong> π x . Así, t<strong>en</strong>dremos p + 1 ecuaciones <strong>de</strong> verosimilitud que seobti<strong>en</strong><strong>en</strong> difer<strong>en</strong>ciando la función <strong>de</strong> log-verosimilitud respecto a los p + 1 coefici<strong>en</strong>tes.Las ecuaciones serán:ni=1y i − π(x i )= 0ni=1x ij y i − π(x i )= 0Para j = 1,2, … , pA continuación se <strong>de</strong>scrib<strong>en</strong> difer<strong>en</strong>tes métodos <strong>de</strong> <strong>selección</strong> <strong>de</strong> <strong>variables</strong> <strong>en</strong> mo<strong>de</strong>los<strong>de</strong> regresión logística:24


<strong>Métodos</strong> <strong>de</strong> <strong>selección</strong> <strong>de</strong> <strong>variables</strong> y evaluación <strong>de</strong> mo<strong>de</strong>los3.2.1 Best subsetEncu<strong>en</strong>tra para cada K ∈ {0,1,2,…,p} el subconjunto <strong>de</strong> tamaño K que proporciona elmejor mo<strong>de</strong>lo. Los mo<strong>de</strong>los obt<strong>en</strong>idos se comparan con el mo<strong>de</strong>lo completo con todaslas <strong>variables</strong> empleado LRT, Wald test, Mallow`s Cq, AIC)Hosmer & Lemeshow [19] propusieron un algoritmo que proporciona un estadísticopara cada posible combinación <strong>de</strong> <strong>variables</strong> predictoras. De este modo se pue<strong>de</strong>estimar el mejor subconjunto. Este procedimi<strong>en</strong>to permite i<strong>de</strong>ntificar un grupo <strong>de</strong>subconjuntos que proporcionan el mejor valor bajo un criterio específico sin que seanecesario ajustar todos los mo<strong>de</strong>los <strong>de</strong> regresión con todos los subconjuntos.Para escoger K exist<strong>en</strong> difer<strong>en</strong>tes criterios (el mo<strong>de</strong>lo más pequeño que minimiza unaestimación <strong>de</strong>l error estándar <strong>de</strong> predicción esperado). Se pue<strong>de</strong> emplear validacióncruzada para escoger K.Una limitación <strong>de</strong> esta metodología es que buscar todos los subconjuntos cuando p esmayor que 40 es inviable3.2.2. Regresión stepwiseEngloba una serie <strong>de</strong> procedimi<strong>en</strong>tos <strong>de</strong> <strong>selección</strong> automática <strong>de</strong> <strong>variables</strong>significativas basados <strong>en</strong> la inclusión o exclusión <strong>de</strong> las mismas <strong>en</strong> el mo<strong>de</strong>lo <strong>de</strong> unamanera secu<strong>en</strong>cial. Se pue<strong>de</strong>n dividir los algoritmos <strong>en</strong> 2 categorías:- Selección “forward stepwise”: el algoritmo comi<strong>en</strong>za con el intercept, <strong>de</strong> modo quetodas las predictoras están excluidas <strong>de</strong>l mo<strong>de</strong>lo, e incorpora secu<strong>en</strong>cialm<strong>en</strong>te <strong>en</strong> elmo<strong>de</strong>lo aquella variable predictora que mejora el ajuste.- Eliminación “backward stepwise”: mo<strong>de</strong>lo completo que incluye todas las <strong>variables</strong>predictoras y a cada paso elimina aquellas con m<strong>en</strong>or impacto <strong>en</strong> el ajuste hasta una<strong>de</strong>terminada regla <strong>de</strong> parada.- Selección “stepwise”: este método es una combinación <strong>de</strong> los dos procedimi<strong>en</strong>tosanteriores, comi<strong>en</strong>za como la regresión forward, pero <strong>en</strong> cada paso se plantea si todaslas <strong>variables</strong> introducidas <strong>en</strong> el mo<strong>de</strong>lo <strong>de</strong>b<strong>en</strong> <strong>de</strong> permanecer. El algoritmo terminacuando ninguna variable <strong>en</strong>tra o sale <strong>de</strong>l mo<strong>de</strong>lo.25


<strong>Métodos</strong> <strong>de</strong> <strong>selección</strong> <strong>de</strong> <strong>variables</strong> y evaluación <strong>de</strong> mo<strong>de</strong>losLa elección <strong>de</strong> qué <strong>variables</strong> introducir o eliminar <strong>en</strong> el mo<strong>de</strong>lo <strong>en</strong> cada paso vi<strong>en</strong>edado por LRT, score test, Wald Test, AIC,…3.2.3. Regresión p<strong>en</strong>alizadaUna alternativa a los métodos <strong>de</strong>scritos anteriorm<strong>en</strong>te que manti<strong>en</strong><strong>en</strong> un subconjunto<strong>de</strong> <strong>variables</strong> predictoras y <strong>de</strong>scartan el resto son los métodos <strong>de</strong> regresión p<strong>en</strong>alizada.La i<strong>de</strong>a clave es la p<strong>en</strong>alización, se evita el sobreajuste <strong>de</strong>bido al gran número <strong>de</strong><strong>variables</strong> predictoras imponi<strong>en</strong>do una p<strong>en</strong>alización sobre fluctuaciones gran<strong>de</strong>s <strong>de</strong> losparámetros estimados. La elección <strong>de</strong>l parámetro <strong>de</strong> p<strong>en</strong>alización (λ) es fundam<strong>en</strong>tal,es necesario un procedimi<strong>en</strong>to que estime el valor <strong>de</strong>l parámetro λ a partir <strong>de</strong> losdatos.A continuación se <strong>de</strong>scrib<strong>en</strong> tres métodos <strong>de</strong> regresión logística p<strong>en</strong>alizada:3.2.3.1 LASSOEn un principio <strong>de</strong>sarrollada parara mo<strong>de</strong>los lineales, Least Absolute Shrinkage andSelection Operator (LASSO) se introdujo para regresión logística [20] y se aplicó <strong>en</strong> elcontexto <strong>de</strong> <strong>estudios</strong> <strong>de</strong> expresión génica [21] y más reci<strong>en</strong>tem<strong>en</strong>te <strong>en</strong> GWAS [14,15].LASSO combina “shrinkage” y <strong>selección</strong> <strong>de</strong> <strong>variables</strong>, imponi<strong>en</strong>do una p<strong>en</strong>alizaciónsobre los coefici<strong>en</strong>tes <strong>de</strong> la regresión, <strong>de</strong> modo que para valores altos <strong>de</strong>l parámetro<strong>de</strong> p<strong>en</strong>alización algunos <strong>de</strong> estos coefici<strong>en</strong>tes se fijan a 0.LASSO minimiza la log-verosimilitud negativa, sujeta a una p<strong>en</strong>alización <strong>en</strong> loscoefici<strong>en</strong>tes <strong>de</strong> regresión. Así, si<strong>en</strong>do β el vector <strong>de</strong> coefici<strong>en</strong>tes <strong>de</strong> regresión y L lafunción log-verosimitud negativa, el estimador lasso se <strong>de</strong>fine como:β LASSO = argminβL β + λpβ jj =1Don<strong>de</strong> λ ≥ 0 <strong>de</strong>termina la cantidad <strong>de</strong> “contracción”. La v<strong>en</strong>taja es que pue<strong>de</strong> g<strong>en</strong>erarmo<strong>de</strong>los dispersos, don<strong>de</strong> la mayoría <strong>de</strong> los coefici<strong>en</strong>tes son igual a 0. Se <strong>de</strong>nominap<strong>en</strong>alización L 1 .26


<strong>Métodos</strong> <strong>de</strong> <strong>selección</strong> <strong>de</strong> <strong>variables</strong> y evaluación <strong>de</strong> mo<strong>de</strong>los3.2.3.2 RidgeFue introducida <strong>en</strong> 1970 por Hoerl & K<strong>en</strong>nard [22]. Igual que el caso <strong>de</strong>l métodoLASSO se empleó <strong>en</strong> primer lugar <strong>en</strong> el contexto <strong>de</strong> <strong>estudios</strong> <strong>de</strong> expresión génica [23]y posteriorm<strong>en</strong>te <strong>en</strong> GWAS para tratar con situaciones <strong>de</strong> <strong>de</strong>sequilibrio <strong>de</strong> ligami<strong>en</strong>to<strong>en</strong>tre SNPs [24].En este caso emplea una p<strong>en</strong>alización L 2 , <strong>de</strong> modo que el estimador <strong>de</strong> la regresiónridge es:β RR = argminβpL β + λ β j2j =1El parámetro <strong>de</strong> p<strong>en</strong>alización λ ≥ 0 <strong>de</strong>termina la fuerza <strong>de</strong> la p<strong>en</strong>alización (λ = 0 nohay contracción y λ → ∞ resulta <strong>en</strong> todos los parámetros a 0). En este caso no pue<strong>de</strong>inferir mo<strong>de</strong>los dispersos.3.2.3.3. Elastic netPropuesta por Zou & Hastie [25] se trata <strong>de</strong> un método <strong>de</strong> regularización y <strong>selección</strong><strong>de</strong> <strong>variables</strong>. También ha sido empleado <strong>en</strong> GWAS y <strong>estudios</strong> <strong>de</strong> <strong>asociación</strong> <strong>de</strong> g<strong>en</strong>escandidatos [26]. Consi<strong>de</strong>rando las p<strong>en</strong>alizaciones L 1 :es una combinación <strong>de</strong> las p<strong>en</strong>alizaciones LASSO y ridge:pp 2ijβ j y L 2 : β jji, elastic netβ EN = argminβppL β + λ 1 β j + λ 2 β j2j =1j =1La p<strong>en</strong>alización pue<strong>de</strong> expresarse <strong>de</strong> la forma:λpj =1αβ j 2 + 1 − α β jDe modo que supone un compromiso <strong>en</strong>tre la p<strong>en</strong>alización ridge (α=0) y lap<strong>en</strong>alización lasso (α=1).27


<strong>Métodos</strong> <strong>de</strong> <strong>selección</strong> <strong>de</strong> <strong>variables</strong> y evaluación <strong>de</strong> mo<strong>de</strong>los3.3. Validación cruzadaLa validación cruzada es una aproximación que nos permite evaluar y seleccionarmo<strong>de</strong>los. Se emplea un set <strong>de</strong> <strong>en</strong>tr<strong>en</strong>ami<strong>en</strong>to (training set) para ajustar un mo<strong>de</strong>lo oclasificador y un set <strong>de</strong> prueba (test set) para evaluar su capacidad predictiva,mediante el error <strong>de</strong> predicción u otra medida.La forma <strong>en</strong> que se aplica la validación cruzada es mediante la división <strong>de</strong>l set <strong>de</strong>datos disponible <strong>de</strong> manera aleatoria <strong>en</strong> k subconjuntos <strong>de</strong> igual tamaño ymutuam<strong>en</strong>te excluy<strong>en</strong>tes. A continuación se ajusta el mo<strong>de</strong>lo k-veces <strong>de</strong>jando fueracada una <strong>de</strong> las veces uno <strong>de</strong> los subconjuntos, este subconjunto omitido se empleapara evaluar el mo<strong>de</strong>lo y computar un criterio <strong>de</strong> error establecido. (Uno <strong>de</strong> estoscriterios pue<strong>de</strong> ser error <strong>de</strong> clasificiación, AUC…). La validación cruzada con k=10 esuna <strong>de</strong> las más utilizadas, pero hay que t<strong>en</strong>er <strong>en</strong> cu<strong>en</strong>ta el número <strong>de</strong> observaciones<strong>de</strong>l que disponemos.3.4. Curvas ROCSi consi<strong>de</strong>ramos un clasificador o marcador diagnóstico <strong>de</strong> modo que, sabi<strong>en</strong>do elestatus <strong>de</strong> un individuo,Y=1 <strong>en</strong>fermo (E) , Y=0, sano (E) , nos dé una predicción <strong>de</strong>ese estatus Y, po<strong>de</strong>mos obt<strong>en</strong>er los resultados que se muestran <strong>en</strong> la tabla 3.3:Y1 0Y1 Verda<strong>de</strong>roPositivoFalsoPositivoVP+FP0 FalsoNegativoVerda<strong>de</strong>roNegativoFN+VPVP+FNFP+VNTabla 3.3. Posibles resultados <strong>de</strong> un clasificador o marcador diagnósticoA partir <strong>de</strong> la tabla anterior se pue<strong>de</strong>n calcular la s<strong>en</strong>sibilidad y especificidad <strong>de</strong> unmo<strong>de</strong>lo predictivo:28


<strong>Métodos</strong> <strong>de</strong> <strong>selección</strong> <strong>de</strong> <strong>variables</strong> y evaluación <strong>de</strong> mo<strong>de</strong>losVPS<strong>en</strong>sibilidad =VP+FN= fracción <strong>de</strong> verda<strong>de</strong>ros positivos (FVP)VNEspecificidad =FP+VN= fracción <strong>de</strong> verda<strong>de</strong>ros negativos (FVN)= 1 – fracción <strong>de</strong>falsos positivos (FFP)Un clasificador discreto es el que produce una salida que repres<strong>en</strong>ta sólo la clase <strong>de</strong>pert<strong>en</strong><strong>en</strong>cia. Este clasificador produce un par (FFP,FVP) correspondi<strong>en</strong>te a un únicopunto <strong>en</strong> el espacio ROC. Si empleamos un clasificador probabilístico que indica laprobabilidad <strong>de</strong> pert<strong>en</strong><strong>en</strong>cia a una <strong>de</strong> las clases (u otro tipo <strong>de</strong> marcador continuo), sepue<strong>de</strong> emplear un punto <strong>de</strong> corte o umbral <strong>de</strong> modo que si:Y ≥ c → resultado positivoY < c → resultado negativo,si<strong>en</strong>do c un <strong>de</strong>terminado valor <strong>de</strong> corte que permite hacer la dicotomización anterior.Por lo tanto, la <strong>de</strong>cisión <strong>de</strong>l test <strong>de</strong>p<strong>en</strong><strong>de</strong>rá <strong>de</strong> los distintos valores <strong>de</strong> c.Así, cada valor <strong>de</strong> c da lugar a un test binario, para el que se podrá <strong>de</strong>terminar sus<strong>en</strong>sibilidad y especificidad. Cada punto <strong>de</strong> corte origina un punto difer<strong>en</strong>te <strong>en</strong> elespacio ROC, que repres<strong>en</strong>ta un par (FFP; FVP) correspondi<strong>en</strong>te a un nivel <strong>de</strong><strong>de</strong>cisión <strong>de</strong>terminado.Repres<strong>en</strong>tando el conjunto <strong>de</strong> pares para todos los posibles valores <strong>de</strong> cFFP c , FVP c , c ∈ (−∞, ∞)la curva ROC [27] nos proporciona una repres<strong>en</strong>tación <strong>de</strong> la capacidad discriminatoria<strong>de</strong>l test.La expresión <strong>de</strong> las curvas ROC empleando las funciones <strong>de</strong> superviv<strong>en</strong>cia <strong>de</strong> sanos y<strong>en</strong>fermos es:ROC t = S E S E −1 t , t ∈ (0,1)don<strong>de</strong> S E y S E son:29


Estudio <strong>de</strong> simulación4. Estudio <strong>de</strong> simulación4.1. Descripción <strong>de</strong>l estudio <strong>de</strong> simulaciónSe realizó un estudio <strong>de</strong> simulación con el objetivo <strong>de</strong> comparar los dos métodos <strong>de</strong><strong>selección</strong> <strong>de</strong> <strong>variables</strong> propuestos: <strong>selección</strong> basada <strong>en</strong> análisis <strong>de</strong> <strong>asociación</strong>univariante vs. <strong>selección</strong> basada <strong>en</strong> regresión p<strong>en</strong>alizada.Para este estudio se han utilizado los datos simulados por Calle et al. [28].Los <strong>de</strong>talles<strong>de</strong> la simulación se <strong>en</strong>cu<strong>en</strong>tran <strong>en</strong> la anterior refer<strong>en</strong>cia. A continuación se <strong>de</strong>scrib<strong>en</strong>las características principales <strong>de</strong> estos datos y <strong>de</strong> los distintos esc<strong>en</strong>ariosconsi<strong>de</strong>rados:Se g<strong>en</strong>eró un set <strong>de</strong> k SNPs causales y 1000-k SNPs no causales, sigui<strong>en</strong>do unaestrategia similar a Janse<strong>en</strong>s et al.[29]. Esta estrategia asume in<strong>de</strong>p<strong>en</strong><strong>de</strong>ncia <strong>en</strong>treSNPs por lo que no se dan situaciones <strong>de</strong> Desequilibrio <strong>de</strong> Ligami<strong>en</strong>to. A<strong>de</strong>másasume un mo<strong>de</strong>lo g<strong>en</strong>ético multiplicativo.Otras asunciones <strong>de</strong> la simulación son las sigui<strong>en</strong>tes: todos los SNPs causales están<strong>en</strong> equilibrio HW, ti<strong>en</strong><strong>en</strong> el mismo tamaño <strong>de</strong> efecto <strong>en</strong> la respuesta y las mismasfrecu<strong>en</strong>cias g<strong>en</strong>otípicas. En este caso, para cada SNP causal se fijó el RR <strong>de</strong>lheterocigoto (RR1), si<strong>en</strong>do el riesgo relativo <strong>de</strong>l homocigoto para el alelo másfrecu<strong>en</strong>te RR2=(RR1) 2En este estudio se han contemplado nueve esc<strong>en</strong>arios difer<strong>en</strong>tes, consi<strong>de</strong>randodistintas preval<strong>en</strong>cias <strong>de</strong> la <strong>en</strong>fermedad (p) y difer<strong>en</strong>tes frecu<strong>en</strong>cias <strong>de</strong>l alelo m<strong>en</strong>or(MAF). Asimismo se han mant<strong>en</strong>ido constantes el Riesgo Relativo (RR) y el tamañomuestral, tratándose <strong>en</strong> todos los casos <strong>de</strong> un estudio balanceado, don<strong>de</strong> el número<strong>de</strong> casos (N1) y controles (N0) es igual a 2000. Para todos los posibles esc<strong>en</strong>arios elnúmero <strong>de</strong> SNPs causales (k) se fijó <strong>en</strong> 10. En la tabla 4.1 se <strong>de</strong>tallan los 12esc<strong>en</strong>arios.Para cada uno <strong>de</strong> estos esc<strong>en</strong>arios se g<strong>en</strong>eraron dos sets <strong>de</strong> datos: un learning set yun test set (<strong>de</strong> igual tamaño). El learning set se empleó para construir los mo<strong>de</strong>los y eltest set para valorar la capacidad predictiva <strong>de</strong> los mo<strong>de</strong>los obt<strong>en</strong>idos.31


Estudio <strong>de</strong> simulaciónEsc<strong>en</strong>ario P MAF RR K N0 N1I 0.01 0.1 1.3 10 2000 2000II 0.01 0.2 1.3 10 2000 2000III 0.01 0.3 1.3 10 2000 2000IV 0.1 0.1 1.3 10 2000 2000V 0.1 0.2 1.3 10 2000 2000VI 0.1 0.3 1.3 10 2000 2000VII 0.2 0.1 1.3 10 2000 2000VIII 0.2 0.2 1.3 10 2000 2000IX 0.2 0.3 1.3 10 2000 2000X 0.3 0.1 1.3 10 2000 2000XI 0.3 0.2 1.3 10 2000 2000XII 0.3 0.3 1.3 10 2000 2000Tabla 4.1 Esc<strong>en</strong>arios contemplados <strong>en</strong> el estudio <strong>de</strong> simulaciónAsí, para cada esc<strong>en</strong>ario se g<strong>en</strong>eraron 100 learning sets con los correspondi<strong>en</strong>tes 100test sets. Cada uno <strong>de</strong> estos sets conti<strong>en</strong>e g<strong>en</strong>otipos <strong>de</strong> 1000 SNPS, codificados como0,1 y 2 <strong>en</strong> función <strong>de</strong>l número <strong>de</strong> alelos <strong>de</strong> riesgo (consi<strong>de</strong>rando como alelo <strong>de</strong> riesgoel alelo m<strong>en</strong>os frecu<strong>en</strong>te) para un total <strong>de</strong> 4000 observaciones, 2000 casos y 2000controlesPara el método <strong>de</strong> <strong>selección</strong> <strong>de</strong> <strong>variables</strong> empleando test <strong>de</strong> <strong>asociación</strong>(univariante) se aplicó un procedimi<strong>en</strong>to <strong>en</strong> dos etapas:1) Empleamos el Cochran Armitage Tr<strong>en</strong>d Test <strong>de</strong>scrito <strong>en</strong> el apartado 3.1.2. eimplem<strong>en</strong>tado <strong>en</strong> el paquete Rassoc [30,31], especialm<strong>en</strong>te diseñado para <strong>estudios</strong> <strong>de</strong><strong>asociación</strong> g<strong>en</strong>ética. En este caso hemos consi<strong>de</strong>rado un mo<strong>de</strong>lo g<strong>en</strong>ético aditivo.Para i<strong>de</strong>ntificar las <strong>variables</strong> que pres<strong>en</strong>tan <strong>asociación</strong> con la variable respuesta seseleccionaron dos niveles <strong>de</strong> significación:α=0.05, que se correspon<strong>de</strong>ría al nivel <strong>de</strong> significación establecido para evaluar la<strong>asociación</strong> <strong>de</strong> un SNP <strong>en</strong> particular yα=0.05/1000=0.00005, t<strong>en</strong>i<strong>en</strong>do <strong>en</strong> cu<strong>en</strong>ta una corrección para comparacionesmúltiples. En este estudio estamos empleando la misma muestra para evaluar la<strong>asociación</strong> <strong>en</strong> 1000 SNPs, dado que estos SNPs son in<strong>de</strong>p<strong>en</strong>di<strong>en</strong>tes po<strong>de</strong>mos aplicar32


Estudio <strong>de</strong> simulacióncorrección para comparaciones múltiples empleando el método <strong>de</strong> Bonferroni,corrigi<strong>en</strong>do así el nivel <strong>de</strong> significación <strong>en</strong> función <strong>de</strong>l número <strong>de</strong> test realizados.2) Las <strong>variables</strong> seleccionadas para cada uno <strong>de</strong> los niveles <strong>de</strong> significación seincluyeron <strong>en</strong> un mo<strong>de</strong>lo <strong>de</strong> regresión logística multivariante.Para evaluar la capacidad predictiva <strong>de</strong> los mo<strong>de</strong>los <strong>de</strong> regresión ajustadosempleamos las curvas ROC. El mo<strong>de</strong>lo <strong>de</strong> regresión constituye un clasificadorprobabilístico, ya que nos proporciona las probabilida<strong>de</strong>s <strong>de</strong> pert<strong>en</strong><strong>en</strong>cia a la clase I(Y=1, casos). Empleamos como indicador el AUC con los correspondi<strong>en</strong>tes IC al 95%[32].Para el método <strong>de</strong> <strong>selección</strong> <strong>de</strong> <strong>variables</strong> mediante regresión p<strong>en</strong>alizadaempleamos el paquete glmnet [33]. Seleccionamos el valor <strong>de</strong>l parámetro <strong>de</strong>p<strong>en</strong>alización mediante validación cruzada, mediante la función cv.glmnet. En concreto,hemos realizado una validación cruzada (5 fold) <strong>de</strong> modo que se selecciona el mayorvalor <strong>de</strong> lambda tal que el error está <strong>de</strong>ntro <strong>de</strong> 1 error estándar <strong>de</strong>l mínimoPara cada uno <strong>de</strong> los esc<strong>en</strong>arios y <strong>de</strong> los métodos consi<strong>de</strong>rados se han calculado:1)los AUC promedio <strong>de</strong> las 100 simulaciones, 2) la media y <strong>de</strong>sviación estándar <strong>de</strong>lnúmero <strong>de</strong> SNPs seleccionados <strong>en</strong> cada simulación y 3) el número <strong>de</strong> veces que sonseleccionados cada uno <strong>de</strong> los 10 SNPs causales a lo largo <strong>de</strong> todas las simulaciones.4.2 Resultados y discusiónLos resultados para los distintos esc<strong>en</strong>arios se muestran <strong>en</strong> las tablas 4.2 – 4.13.Conti<strong>en</strong><strong>en</strong> información <strong>de</strong>l AUC promedio <strong>de</strong> las 100 simulaciones, el promedio <strong>de</strong>SNPs seleccionados, la frecu<strong>en</strong>cia (absoluta) con la que son seleccionados cada uno<strong>de</strong> los 10 SNPs causales, así como la frecu<strong>en</strong>cia promedio para los 10 SNPscausales.33


Estudio <strong>de</strong> simulaciónESCENARIO ISelección pvalue Selección regresión LASSOp=0.01 MAF=0.1α=0.05 α=0.00005 λ=1.seAUC 0.559 0.557 0.575Promedio SNPsseleccionados <strong>en</strong> cadasimulación (sd)59.29 (6.63) 3.78 (1.45) 23.77 (64.61)Frecu<strong>en</strong>cia con laque sonseleccionados losSNPs causalesSNP1 98 36 79SNP2 97 45 80SNP3 96 40 80SNP4 98 32 74SNP5 95 41 78SNP6 97 39 77SNP7 96 34 73SNP8 98 48 80SNP9 94 30 73SNP10 95 37 71Frecu<strong>en</strong>cia promedio para los10 SNPs causales (sd) 96.40 (1.43 ) 37.20 (5.14) 76.30 (3.27)Tabla 4.2. Resultados para el esc<strong>en</strong>ario IESCENARIO IISelección pvalue Selección regresión LASSOp=0.01 MAF=0.2α=0.05 α=0.00005 λ=1.seAUC 0.594 0.620 0.617Promedio SNPsseleccionados <strong>en</strong> cadasimulación (sd)58.07 (6.78) 7.90 (1.30) 13.46 (15.00)Frecu<strong>en</strong>cia con laque sonseleccionados losSNPs causalesSNP1 100 77 96SNP2 100 75 91SNP3 100 83 88SNP4 100 85 96SNP5 100 78 95SNP6 100 78 90SNP7 100 80 94SNP8 100 78 94SNP9 100 76 87SNP10 100 76 93Frecu<strong>en</strong>cia promedio para los10 SNPs causales (sd) 100 (0.00 ) 78.60 (3.20) 92.40 (3.24)Tabla 4.3. Resultados para el esc<strong>en</strong>ario II34


Estudio <strong>de</strong> simulaciónESCENARIO IIISelección pvalue Selección regresión LASSOp=0.01 MAF=0.3α=0.05 α=0.00005 λ=1.seAUC 0.611 0.647 0.641Promedio SNPsseleccionados <strong>en</strong> cadasimulación (sd)58.94 (6.46) 9.47 (0.82) 11.53 (4.40)Frecu<strong>en</strong>cia con laque sonseleccionados losSNPs causalesSNP1 100 92 97SNP2 100 89 93SNP3 100 97 98SNP4 100 86 94SNP5 100 93 96SNP6 100 98 98SNP7 100 98 100SNP8 100 95 97SNP9 100 97 99SNP10 100 93 97Frecu<strong>en</strong>cia promedio para los10 SNPs causales (sd) 100 (0.00 ) 93.80 (4.02) 96.90 (2.13)Tabla 4.4. Resultados para el esc<strong>en</strong>ario IIIESCENARIO IVSelección pvalue Selección regresión LASSOp=0.1 MAF=0.1α=0.05 α=0.00005 λ=1.seAUC 0.570 0.573 0.587Promedio SNPsseleccionados <strong>en</strong> cadasimulación (sd)59.58 (7.26) 4.90 (1.70) 14.05 (17.92)Frecu<strong>en</strong>cia con laque sonseleccionados losSNPs causalesSNP1 99 90 85SNP2 99 53 86SNP3 97 41 77SNP4 100 58 88SNP5 96 46 83SNP6 100 46 79SNP7 98 45 77SNP8 97 45 73SNP9 98 50 80SNP10 98 40 79Frecu<strong>en</strong>cia promedio para los10 SNPs causales (sd) 98.20 (1.32 ) 48.40 (6.75) 80.70 (4.69)Tabla 4.5. Resultados para el esc<strong>en</strong>ario IV35


Estudio <strong>de</strong> simulaciónESCENARIO VSelección pvalue Selección regresión LASSOp=0.1 MAF=0.2α=0.05 α=0.00005 λ=1.seAUC 0.606 0.637 0.632Promedio SNPsseleccionados <strong>en</strong> cadasimulación (sd)58.47 (6.12) 8.84 (0.91) 11.98 (4.99)Frecu<strong>en</strong>cia con laque sonseleccionados losSNPs causalesSNP1 100 87 94SNP2 100 85 93SNP3 100 92 98SNP4 100 88 98SNP5 100 90 95SNP6 100 93 97SNP7 100 85 93SNP8 100 84 96SNP9 100 90 93SNP10 100 87 96Frecu<strong>en</strong>cia promedio para los10 SNPs causales (sd) 100 (0.00 ) 88.10 (3.07) 95.30 (2.00)Tabla 4.6. Resultados para el esc<strong>en</strong>ario VESCENARIO VISelección pvalue Selección regresión LASSOp=0.1 MAF=0.3α=0.05 α=0.00005 λ=1.seAUC 0.623 0.656 0.652Promedio SNPsseleccionados <strong>en</strong> cadasimulación (sd)59.94 (6.59) 9.73 (0.69) 11.86 (4.55)Frecu<strong>en</strong>cia con laque sonseleccionados losSNPs causalesSNP1 100 92 99SNP2 100 95 95SNP3 100 96 100SNP4 100 98 99SNP5 100 97 100SNP6 100 98 98SNP7 100 100 99SNP8 100 94 97SNP9 100 96 98SNP10 100 96 100Frecu<strong>en</strong>cia promedio para los10 SNPs causales (sd) 100 (0.00 ) 96.20 (2.25) 98.50 (1.58)Tabla 4.7. Resultados para el esc<strong>en</strong>ario VI36


Estudio <strong>de</strong> simulaciónESCENARIO VIISelección pvalue Selección regresión LASSOp=0.2 MAF=0.1α=0.05 α=0.00005 λ=1.seAUC 0.585 0.601 0.608Promedio SNPsseleccionados <strong>en</strong> cadasimulación (sd)59.61 (7.17) 6.81 (1.55) 13.72 (12.04)Frecu<strong>en</strong>cia con laque sonseleccionados losSNPs causalesSNP1 100 59 87SNP2 99 69 91SNP3 100 66 90SNP4 100 59 85SNP5 100 76 96SNP6 100 71 95SNP7 100 61 87SNP8 99 72 90SNP9 99 67 88SNP10 100 76 95Frecu<strong>en</strong>cia promedio para los10 SNPs causales (sd) 99.70 (0.48 ) 67.60 (6.40) 90.40 (3.84)Tabla 4.8. Resultados para el esc<strong>en</strong>ario VIIESCENARIO VIIISelección pvalue Selección regresión LASSOp=0.2 MAF=0.2α=0.05 α=0.00005 λ=1.seAUC 0.622 0.658 0.650Promedio SNPsseleccionados <strong>en</strong> cadasimulación (sd)60.51 (7.09) 9.63 (0.68) 11.12 (3.24)Frecu<strong>en</strong>cia con laque sonseleccionados losSNPs causalesSNP1 100 94 97SNP2 100 98 97SNP3 100 95 99SNP4 100 95 98SNP5 100 96 100SNP6 100 96 97SNP7 100 96 97SNP8 100 98 99SNP9 100 98 99SNP10 100 93 95Frecu<strong>en</strong>cia promedio para los10 SNPs causales (sd) 100 (0.00) 95.90 (1.73) 97.80 (1.48)Tabla 4.9. Resultados para el esc<strong>en</strong>ario VIII37


Estudio <strong>de</strong> simulaciónESCENARIO IXSelección pvalue Selección regresión LASSOp=0.2 MAF=0.3α=0.05 α=0.00005 λ=1.seAUC 0.644 0.680 0.671Promedio SNPsseleccionados <strong>en</strong> cadasimulación (sd)59.49 (6.63) 9.97 (0.39) 10.60 (3.01)Frecu<strong>en</strong>cia con laque sonseleccionados losSNPs causalesSNP1 100 97 98SNP2 100 99 100SNP3 100 99 100SNP4 100 99 100SNP5 100 98 98SNP6 100 100 98SNP7 100 100 100SNP8 100 99 99SNP9 100 100 100SNP10 100 100 98Frecu<strong>en</strong>cia promedio para los10 SNPs causales (sd) 100 (0.00 ) 99.10 (0.99) 99.10 (0.99)Tabla 4.10. Resultados para el esc<strong>en</strong>ario IXESCENARIO XSelección pvalue Selección regresión LASSOp=0.3 MAF=0.1α=0.05 α=0.00005 λ=1.seAUC 0.604 0.631 0.630Promedio SNPsseleccionados <strong>en</strong> cadasimulación (sd)59.56 (6.97) 8.53 (1.10) 12.20 (6.31)Frecu<strong>en</strong>cia con laque sonseleccionados losSNPs causalesSNP1 100 83 95SNP2 99 83 95SNP3 100 87 97SNP4 100 90 98SNP5 100 83 96SNP6 100 88 97SNP7 100 84 92SNP8 99 83 97SNP9 100 87 96SNP10 100 82 97Frecu<strong>en</strong>cia promedio para los10 SNPs causales (sd) 99.80 (0.42) 85.00 (2.75) 96.00 (1.70)Tabla 4.11. Resultados para el esc<strong>en</strong>ario X38


Estudio <strong>de</strong> simulaciónESCENARIO XISelección pvalue Selección regresión LASSOp=0.3 MAF=0.2α=0.05 α=0.00005 λ=1.seAUC 0.646 0.681 0.673Promedio SNPsseleccionados <strong>en</strong> cadasimulación (sd)59.63 (6.43) 9.96 (0.40) 12.20 (6.31)Frecu<strong>en</strong>cia con laque sonseleccionados losSNPs causalesSNP1 100 99 100SNP2 100 97 99SNP3 100 99 100SNP4 100 99 100SNP5 100 100 100SNP6 100 98 99SNP7 100 100 100SNP8 100 99 99SNP9 100 99 100SNP10 100 100 100Frecu<strong>en</strong>cia promedio para los10 SNPs causales (sd) 100 (0.00) 99.00 (0.94) 99.70 (0.48)Tabla 4.12. Resultados para el esc<strong>en</strong>ario XIESCENARIO XIISelección pvalue Selección regresión LASSOp=0.3 MAF=0.3α=0.05 α=0.00005 λ=1.seAUC 0.667 0.700 0.693Promedio SNPsseleccionados <strong>en</strong> cadasimulación (sd)60.66 (6.82) 10.00 (0.28) 10.29 (1.12)Frecu<strong>en</strong>cia con laque sonseleccionados losSNPs causalesSNP1 100 98 98SNP2 100 99 100SNP3 100 100 100SNP4 100 100 99SNP5 100 99 100SNP6 100 100 100SNP7 100 100 99SNP8 100 100 100SNP9 100 100 100SNP10 100 100 100Frecu<strong>en</strong>cia promedio para los10 SNPs causales (sd) 100 (0.00 ) 99.60 (0.70) 99.60 (0.70)Tabla 4.13. Resultados para el esc<strong>en</strong>ario XII39


Estudio <strong>de</strong> simulaciónNúmero <strong>de</strong> SNPs seleccionadosEn primer lugar analizamos el número <strong>de</strong> SNPs seleccionados por cada mo<strong>de</strong>lo(Tabla 4.14). Los dos supuestos <strong>de</strong> mayor interés son aquellos que se correspon<strong>de</strong>ncon la <strong>selección</strong> por pvalue t<strong>en</strong>i<strong>en</strong>do <strong>en</strong> cu<strong>en</strong>ta un nivel <strong>de</strong> significación corregido <strong>en</strong>función <strong>de</strong>l número <strong>de</strong> test, y regresión LASSO con elección <strong>de</strong>l parámetro <strong>de</strong>p<strong>en</strong>alización mediante validación cruzada.Comparamos los resultados para el método <strong>de</strong> <strong>selección</strong> (1) pvalue


Estudio <strong>de</strong> simulación(2) α=0.00005Ajustando por “multiple testing” con el método <strong>de</strong> Bonferroni la <strong>selección</strong> esmuy conservadora. El número <strong>de</strong> SNPs seleccionados está <strong>en</strong> el rango 3-10,es <strong>de</strong>cir, es igual o inferior al número <strong>de</strong> SNPs causales. Esta estrategiaasegura no hay falsos positivos a costa <strong>de</strong> per<strong>de</strong>r algunos verda<strong>de</strong>rospositivos.(3) λ=1.seEn el caso <strong>de</strong> la regresión LASSO se selecciona un número <strong>de</strong> <strong>variables</strong> muypróximo al número <strong>de</strong> <strong>variables</strong> causales, <strong>en</strong> este caso 10. Al seleccionar elparámetro <strong>de</strong> p<strong>en</strong>alización mediante validación cruzada, p<strong>en</strong>aliza a 0 loscoefici<strong>en</strong>tes <strong>de</strong> la mayoría <strong>de</strong> <strong>variables</strong> no informativas, <strong>en</strong> este caso el número<strong>de</strong> <strong>variables</strong> con coefici<strong>en</strong>tes distintos <strong>de</strong> 0 es <strong>en</strong> todos los esc<strong>en</strong>arios >=10,aunque pres<strong>en</strong>ta mayor varianza.Efecto MAFEmpleando el método (2), al aum<strong>en</strong>tar la MAF (para una misma preval<strong>en</strong>cia)aum<strong>en</strong>ta el número <strong>de</strong> SNPs seleccionados, <strong>de</strong> modo que se aproxima más alnúmero real <strong>de</strong> SNPs causales. En el caso <strong>de</strong>l método (3) al aum<strong>en</strong>tar MAFdisminuye el número <strong>de</strong> SNPs seleccionados, pero <strong>de</strong>l mismo modo se acercamás al número <strong>de</strong> SNPs causales.Los dos métodos <strong>de</strong> <strong>selección</strong> <strong>de</strong> <strong>variables</strong> funcionan mejor para MAFelevadas. Este hecho parece ser in<strong>de</strong>p<strong>en</strong>di<strong>en</strong>te <strong>de</strong> la preval<strong>en</strong>cia.Preval<strong>en</strong>ciaNo parece ejercer un gran efecto. Aunque <strong>en</strong> condiciones <strong>de</strong> baja preval<strong>en</strong>cia yy bajas frecu<strong>en</strong>cias <strong>de</strong>l alelo m<strong>en</strong>or, los métodos (2) y (3) funcionan peor.41


Estudio <strong>de</strong> simulaciónFrecu<strong>en</strong>cia con la que son seleccionados los SNPs causalesA continuación analizamos el número <strong>de</strong> SNPs causales seleccionados, tomando lafrecu<strong>en</strong>cia promedio para los 10 SNPs (Tabla 4.15)Esc<strong>en</strong>ario p( ) MAF ( ) α=0.05 α=0.00005 λ=1.seI p(0.01) MAF (0.1) 96.14 (1.43) 37.20 (5.14) 76.30 (3.27)II p(0.01) MAF (0.2) 100 (0.00) 78.60 (3.20) 92.40 (3.24)III p(0.01) MAF (0.3) 100 (0.00) 93.80 (4.02) 96.90 (2.13)IV p(0.1) MAF (0.1) 98.20 (1.32) 48.40 (6.75) 80.70 (4.69)V p(0.1) MAF (0.2) 100 (0.00) 88.10 (3.07) 95.30 (2.00)VI p(0.1) MAF (0.3) 100 (0.00) 96.20 (2.25) 98.50 (1.58)VII p(0.2) MAF (0.1) 99.70 (0.48) 67.60 (6.40) 90.40 (3.84)VIII p(0.2) MAF (0.2) 100 (0.00) 95.90 (1.73) 97.80 (1.48)IX p(0.2) MAF (0.3) 100 (0.00) 99.10 (0.99) 99.10 (0.99)X p(0.3) MAF (0.1) 99.80 (0.42) 85.00 (2.75) 96.00 (1.70)XI p(0.3) MAF (0.2) 100 (0.00) 99.00 (0.94) 99.70 (0.48)XII p(0.3) MAF (0.3) 100 (0.00) 99.60 (0.70) 99.60 (0.70)Tabla 4.15. Frecu<strong>en</strong>cia promedio <strong>de</strong> <strong>selección</strong> para los 10 SNPs causales(1) α=0.05Estableci<strong>en</strong>do este umbral <strong>de</strong> significación se seleccionaron siempre todas las<strong>variables</strong> causales (a excepción <strong>de</strong> aquellos esc<strong>en</strong>arios con MAF y preval<strong>en</strong>ciabajas). Esto es a costa <strong>de</strong> t<strong>en</strong>er <strong>en</strong>tre las <strong>variables</strong> seleccionadas un númeromuy elevado <strong>de</strong> falsos positivos. Veremos <strong>en</strong> la sigui<strong>en</strong>te tabla que este hechoreduce consi<strong>de</strong>rablem<strong>en</strong>te la capacidad predictiva <strong>de</strong> los mo<strong>de</strong>los obt<strong>en</strong>idos.(2) α=0.00005Corregir el nivel <strong>de</strong> significación <strong>en</strong> función <strong>de</strong>l número <strong>de</strong> test realizadosimplica per<strong>de</strong>r pot<strong>en</strong>cia <strong>en</strong> la <strong>selección</strong> <strong>de</strong> <strong>variables</strong> causales, <strong>de</strong> modo que sertan estrictos para evitar falsos positivos implica no po<strong>de</strong>r i<strong>de</strong>ntificar todas las<strong>variables</strong> que muestran <strong>asociación</strong> con la respuesta.42


Estudio <strong>de</strong> simulación(3) λ=1.seEste método proporciona un equilibrio <strong>en</strong>tre una alta pot<strong>en</strong>cia <strong>de</strong> <strong>selección</strong> <strong>de</strong><strong>variables</strong> causales (para la mayoría <strong>de</strong> los esc<strong>en</strong>arios con una frecu<strong>en</strong>cia >=90%) y un bajo número <strong>de</strong> falsos positivos.Efecto MAFPara valores altos <strong>de</strong> MAF (0.2, 0.3) no exist<strong>en</strong> ap<strong>en</strong>as difer<strong>en</strong>cias <strong>en</strong>tre losmétodos (2) y (3) <strong>en</strong> cuanto a su capacidad para i<strong>de</strong>ntificar <strong>variables</strong> causales.Para valores <strong>de</strong> MAF=0.1 la regresión LASSO ti<strong>en</strong>e mayor habilidad paraseleccionar SNPs asociados con la respuesta.Preval<strong>en</strong>ciaIgual que <strong>en</strong> el caso anterior, no se observa un gran efecto <strong>de</strong> la preval<strong>en</strong>cia,aunque sí parece apreciarse una cierta t<strong>en</strong><strong>de</strong>ncia: a medida que aum<strong>en</strong>ta lapreval<strong>en</strong>cia es más fácil i<strong>de</strong>ntificar SNPs causales. Asimismo p(0.01) yMAF(0.1) repres<strong>en</strong>tan el peor esc<strong>en</strong>ario posible para cualquiera <strong>de</strong> losmétodos empleados.Capacidad predictiva. AUCPor último evaluamos la capacidad predictiva <strong>de</strong> los 3 métodos (Tabla 4.16)(1) α=0.05Claram<strong>en</strong>te este método es el m<strong>en</strong>os efectivo a nivel <strong>de</strong> capacidad predictiva.El ruido introducido por el gran número <strong>de</strong> falsos positivos reduceconsi<strong>de</strong>rablem<strong>en</strong>te la capacidad predictiva <strong>de</strong>l mo<strong>de</strong>lo <strong>de</strong> regresión construidocon las <strong>variables</strong> seleccionadas.(2) α=0.00005 y (3) λ=1.seAmbos métodos pres<strong>en</strong>taron unos valores <strong>de</strong> AUC similares. En este caso elAUC no nos permite discriminar <strong>en</strong>tre los dos métodos <strong>de</strong> <strong>selección</strong> <strong>de</strong><strong>variables</strong>, los po<strong>de</strong>mos consi<strong>de</strong>rar prácticam<strong>en</strong>te equival<strong>en</strong>tes <strong>en</strong> cuanto a sucapacidad predictiva.43


Estudio <strong>de</strong> simulaciónEsc<strong>en</strong>ario p () MAF () α=0.05 α=0.00005 λ=1.seI p(0.01) MAF (0.1) 0.559[0.536, 0.582]II p(0.01) MAF (0.2) 0.593[0.573, 0.615]III p(0.01) MAF (0.3) 0.610[0.589, 0.633]IV p(0.1) MAF (0.1) 0.570[0.550, 0.587]V p(0.1) MAF (0.2) 0.606[0.590, 0.627]VI p(0.1) MAF (0.3) 0.623[0.604, 0.645]VII p(0.2) MAF (0.1) 0.585[0.563, 0.606]VIII p(0.2) MAF (0.2) 0.622[0.600, 0.644]IX p(0.2) MAF (0.3) 0.644[0.624, 0.665]X p(0.3) MAF (0.1) 0.604[0.583, 0.623]XI p(0.3) MAF (0.2) 0.646[0.626, 0.665]XII p(0.3) MAF (0.3) 0.667[0.648, 0.686]0.557[0.527, 0.585]0.620[0.587, 0.647]0.647[0.626, 0.668]0.573[0.529, 0.606]0.636[0.615, 0.658]0.659[0.636, 0.679]0.601[0.569, 0.628]0.658[0.636, 0.677]0.680[0.658, 0.698]0.631[0.599, 0.654]0.681[0.662, 0.700]0.700[0.684, 0.717]0.575[0.536, 0.605]0.617[0.587,0.646]0.641[0.611, 0.663]0.587[0.548, 0.614]0.641[0.611, 0.663]0.652[0.630, 0.673]0.608[0.572, 0.632]0.650[0.623, 0.673]0.671[0.645, 0.690]0.630[0.602, 0.651]0.673[0.652, 0.695]0.693[0.669, 0.713]Tabla 4.16. AUCs (IC 95%) para los difer<strong>en</strong>tes esc<strong>en</strong>ariosEfecto MAFA medida que aum<strong>en</strong>ta MAF (in<strong>de</strong>p<strong>en</strong>di<strong>en</strong>tem<strong>en</strong>te <strong>de</strong> la preval<strong>en</strong>cia) aum<strong>en</strong>tala capacidad predictiva <strong>de</strong> los mo<strong>de</strong>los g<strong>en</strong>erados, esto es así para cualquiera<strong>de</strong> los métodos <strong>de</strong> <strong>selección</strong> <strong>de</strong> <strong>variables</strong> empleados.44


Estudio <strong>de</strong> simulaciónEfecto preval<strong>en</strong>ciaPara un valor dado <strong>de</strong> MAF y mant<strong>en</strong>i<strong>en</strong>do el resto <strong>de</strong> parámetros constantes,el valor <strong>de</strong> AUC se increm<strong>en</strong>ta al aum<strong>en</strong>tar la preval<strong>en</strong>cia.45


Aplicación a un estudio <strong>en</strong> <strong>en</strong>fermedad <strong>de</strong> Parkinson5. Aplicación a un estudio <strong>en</strong> <strong>en</strong>fermedad <strong>de</strong> Parkinson5.1. Descripción <strong>de</strong> los datosLos datos proce<strong>de</strong>n <strong>de</strong> un estudio <strong>de</strong> <strong>asociación</strong> <strong>de</strong> g<strong>en</strong>es candidatos <strong>en</strong> <strong>en</strong>fermedad<strong>de</strong> Parkinson, llevado a cabo por el grupo <strong>de</strong> Neurog<strong>en</strong>ética <strong>de</strong> la Fundación PúblicaGalega <strong>de</strong> Medicina X<strong>en</strong>ómica (FPGMX) <strong>en</strong> colaboración con neurólogos <strong>de</strong>lComplejo Hospitalario Universitario <strong>de</strong> Santiago <strong>de</strong> Compostela (CHUS). Se trata <strong>de</strong>un estudio poblacional caso-control.Los criterios clínicos se han establecido <strong>en</strong> base a la UK PD Society Brain Bankmediante exam<strong>en</strong> <strong>de</strong> neurólogos especializados <strong>en</strong> trastornos <strong>de</strong>l movimi<strong>en</strong>to. En loscontroles se <strong>de</strong>scartó la pres<strong>en</strong>cia <strong>de</strong> antece<strong>de</strong>ntes <strong>de</strong> parkinsonismo. Todos losparticipantes pert<strong>en</strong>ecían a la población gallega, que <strong>de</strong>s<strong>de</strong> el punto <strong>de</strong> vista g<strong>en</strong>éticono pres<strong>en</strong>ta estratificación signifcativa y por lo tanto sin problemas <strong>de</strong> subestructurapoblacional que puedan dar lugar a falsos positivos por esa causa.Partimos <strong>de</strong>l estudio <strong>de</strong> 587 individuos y 115 SNPs. Los datos sobre los quefinalm<strong>en</strong>te trabajamos (525 individuos, 71 SNPs) son aquellos que han pasadodifer<strong>en</strong>tes filtros <strong>de</strong> control <strong>de</strong> calidad refer<strong>en</strong>tes a:1. Tasa <strong>de</strong> g<strong>en</strong>otipado: Todos los SNPs están g<strong>en</strong>otipados <strong>en</strong> al m<strong>en</strong>os el 95% <strong>de</strong> lasmuestras y para todas las muestras se han g<strong>en</strong>otipado al m<strong>en</strong>os el 90% <strong>de</strong> los SNPs.Las muestras y SNPs con tasas <strong>de</strong> g<strong>en</strong>otipado inferiores a las m<strong>en</strong>cionadas fueroneliminadas <strong>de</strong>l estudio.2. HWE: Se estudió el equilibro Hardy-Weinberg <strong>en</strong> la población control. Se establecióun nivel <strong>de</strong> significación, α=0.05. Aquellos SNPs que no se <strong>en</strong>contraban <strong>en</strong> HWE <strong>en</strong>controles fueron asimismo eliminados <strong>de</strong>l estudio.3. MAF: Para todos los SNPs la frecu<strong>en</strong>cia <strong>de</strong>l alelo m<strong>en</strong>or es superior al 10% <strong>en</strong> lapoblación control.Los análisis relativos al control <strong>de</strong> calidad no se muestran <strong>en</strong> el pres<strong>en</strong>te trabajo.Dado que estos resultados están p<strong>en</strong>di<strong>en</strong>tes <strong>de</strong> publicación se han recodificado losnombres <strong>de</strong> los g<strong>en</strong>es y SNPs analizados.46


Aplicación a un estudio <strong>en</strong> <strong>en</strong>fermedad <strong>de</strong> ParkinsonEstos 71 SNPs objeto <strong>de</strong>l estudio pert<strong>en</strong>ec<strong>en</strong> a 15 g<strong>en</strong>es, tal y como se muestra <strong>en</strong> latabla 5.1g<strong>en</strong> A snp27 snp42g<strong>en</strong> B snp20 snp70g<strong>en</strong> C snp02 snp03 snp04 snp05 snp11 snp22 snp30 snp32 snp51snp58g<strong>en</strong> Dg<strong>en</strong> Esnp50snp64g<strong>en</strong> F snp12 snp17g<strong>en</strong> Gg<strong>en</strong> Hsnp35snp06g<strong>en</strong> I snp01 snp19 snp28 snp69g<strong>en</strong> J snp45 snp53g<strong>en</strong> K snp10 snp14 snp16 snp18 snp21 snp23 snp24 snp26 snp33snp52 snp59 snp60 snp68g<strong>en</strong> L snp08 snp15 snp29 snp31 snp36 snp40 snp41 snp43 snp46snp47 snp48 snp49 snp54 snp56 snp62 snp63 snp65 snp66snp67 snp71g<strong>en</strong> M snp09 snp25 snp57g<strong>en</strong> N snp13 snp34 snp37 snp38 snp39 snp44 snp55 snp61g<strong>en</strong> Osnp07Tabla 5.1. G<strong>en</strong>es y SNPs objeto <strong>de</strong> estudio47


Aplicación a un estudio <strong>en</strong> <strong>en</strong>fermedad <strong>de</strong> Parkinson5.2 Análisis exploratorio5.2.1 Análisis <strong>de</strong> <strong>asociación</strong> univarianteEn primer lugar empleamos un test <strong>de</strong> <strong>asociación</strong> individual, <strong>en</strong> este caso LikelihoodRatio Test, implem<strong>en</strong>tado <strong>en</strong> el paquete SNPassoc [34] mediante la funciónWGassociation. En la tabla 5.2 se muestran los pvalues obt<strong>en</strong>idos al aplicar este testpara aquellos SNPs que mostraron <strong>asociación</strong> significativa para α=0.1 consi<strong>de</strong>randoun mo<strong>de</strong>lo log-aditivo. En este análisis inicial no consi<strong>de</strong>ramos ningún tipo <strong>de</strong>corrección para comparaciones múltiples.Po<strong>de</strong>mos observar que todos los SNPs que muestran <strong>asociación</strong> individual a un nivel<strong>de</strong> significación α=0.05 pert<strong>en</strong>ec<strong>en</strong> a tres g<strong>en</strong>es. Por este motivo nos c<strong>en</strong>traremos <strong>en</strong><strong>de</strong>scribir los patrones <strong>de</strong> <strong>de</strong>sequilibrio <strong>de</strong> ligami<strong>en</strong>to <strong>de</strong> los g<strong>en</strong>es K, M y N.snp g<strong>en</strong> pvaluesnp55 g<strong>en</strong> N 0.00060788snp38 g<strong>en</strong> N 0.00870665snp37 g<strong>en</strong> N 0.00876914snp39 g<strong>en</strong> N 0.01203832snp10 g<strong>en</strong> K 0.01728450snp57 g<strong>en</strong> M 0.02782538snp25 g<strong>en</strong> M 0.03813298snp13 g<strong>en</strong> N 0.04236906snp09 g<strong>en</strong> M 0.05680599snp35 g<strong>en</strong> G 0.06375716snp58 g<strong>en</strong> C 0.06601989snp18 g<strong>en</strong> K 0.08701018snp50 g<strong>en</strong> D 0.09800406Tabla 5.2 Resultados <strong>de</strong> LRT para α=0.15.2.2 Estudio <strong>de</strong>l Desequilibro <strong>de</strong> Ligami<strong>en</strong>toEn el capítulo 2 <strong>de</strong>scribíamos el <strong>de</strong>sequilibrio <strong>de</strong> ligami<strong>en</strong>to y difer<strong>en</strong>tes medidas paraevaluarlo. Exist<strong>en</strong> difer<strong>en</strong>tes aplicaciones gratuitas que permit<strong>en</strong> calcular estasmedidas y a su vez proporcionan repres<strong>en</strong>taciones gráficas <strong>de</strong> las mismas <strong>en</strong> la forma<strong>de</strong> “heatmaps”” t<strong>en</strong>i<strong>en</strong>do <strong>en</strong> cuanta las posiciones relativas <strong>en</strong>tre SNPs. Uno <strong>de</strong> losmás ext<strong>en</strong>didos es el <strong>de</strong>sarrollado por el Broad Institue of MIT and Harvard, Haploview48


Aplicación a un estudio <strong>en</strong> <strong>en</strong>fermedad <strong>de</strong> Parkinson4.2 [35]. En este caso se ha empleado el software R, que dispone <strong>de</strong>l paqueteLDheatmap [36], con una función con el mismo nombre disponible que permite calcularlos estadísticos D´ y r 2 así como mapas <strong>de</strong> <strong>de</strong>sequilibrio <strong>de</strong> ligami<strong>en</strong>to para una serie<strong>de</strong> SNPs <strong>en</strong> una <strong>de</strong>terminada región g<strong>en</strong>ómica, dadas sus distancias físicas oposiciones g<strong>en</strong>éticas y los g<strong>en</strong>otipos correspondi<strong>en</strong>tes.De este modo obt<strong>en</strong>emos las medidas <strong>de</strong> <strong>de</strong>sequilibrio <strong>de</strong> ligami<strong>en</strong>to por parejascorrespondi<strong>en</strong>tes a D’ y r 2 y los correspondi<strong>en</strong>tes gráficos con códigos <strong>de</strong> coloressegún estas medidas. En la figura 5.1 se muestran los mapas <strong>de</strong> <strong>de</strong>sequilibrio <strong>de</strong>ligami<strong>en</strong>to tomando los valores <strong>de</strong> D’ y r 2 para todos los SNPs analizadospert<strong>en</strong>eci<strong>en</strong>tes al g<strong>en</strong> N. Asimismo <strong>en</strong> las tablas 5.3 y 5.4 se muestran los valores <strong>de</strong>los estadísticos D’ y r 2 respectivam<strong>en</strong>te para cada par <strong>de</strong> SNPs.snp39 snp34 snp13 snp37 snp44 snp55 snp61snp38 1.000 0.819 0.999 1.000 0.998 0.999 0.987snp39 0.821 0.999 1.000 0.998 0.999 0.974snp34 0.400 0.819 0.011 0.283 0.386snp13 0.999 0.418 0.582 0.029snp37 0.998 0.999 0.988snp44 0.910 0.287snp55 0.807Tabla 5.3 Medidas <strong>de</strong> D’ para todos los SNPs analizados <strong>de</strong>l g<strong>en</strong> Nsnp39 snp34 snp13 snp37 snp44 snp55 snp61snp38 0.999 0.152 0.134 0.994 0.067 0.069 0.257snp39 0.154 0.135 0.997 0.067 0.069 0.252snp34 0.050 0.153 3.3e-05 0.013 0.128snp13 0.135 0.088 0.174 2.9e-04snp37 0.067 0.069 0.259snp44 0.039 0.021snp55 0.122Tabla 5.4 Medidas <strong>de</strong> r 2 para todos los SNPs analizados <strong>de</strong>l g<strong>en</strong> N49


Aplicación a un estudio <strong>en</strong> <strong>en</strong>fermedad <strong>de</strong> ParkinsonD’ pres<strong>en</strong>ta una gran <strong>de</strong>p<strong>en</strong><strong>de</strong>ncia <strong>de</strong>l tamaño muestral, y pue<strong>de</strong> estar sesgado si eltamaño muestral es pequeño. Dado que r 2 es una medida más restrictiva, será la queempleemos como refer<strong>en</strong>cia.En base a los valores <strong>de</strong> r 2 po<strong>de</strong>mos observar que existe un fuerte LD <strong>en</strong>tre lossigui<strong>en</strong>tes pares <strong>de</strong> snps: snp37:snp38, snp37:snp39 y snp38:snp39. Destacamosaquellos valores <strong>de</strong> r 2 ≥ 0.9. Dado que estos tres SNPs están <strong>en</strong>tre los que muestran<strong>asociación</strong> significativa según se muestra <strong>en</strong> la tabla 5.2, serán objeto <strong>de</strong> especialat<strong>en</strong>ción <strong>en</strong> los análisis posteriores.Figura 5.1. Mapas <strong>de</strong> <strong>de</strong>sequilibrio <strong>de</strong> ligami<strong>en</strong>to para el g<strong>en</strong> N empleando los valores<strong>de</strong> D’ y r 2D’ r 2Pairwise LDPairwise LDPhysical L<strong>en</strong>gth:381.9kbPhysical L<strong>en</strong>gth:381.9kbColor Key0 0.2 0.4 0.6 0.8 1Color Key0 0.2 0.4 0.6 0.8 1Realizamos el mismo análisis para el g<strong>en</strong> K, <strong>en</strong> este caso mostramos los valorescorrespondi<strong>en</strong>tes a r 2 <strong>en</strong> la tabla 5.5 y el mapa <strong>de</strong> <strong>de</strong>sequilibrio <strong>de</strong> ligami<strong>en</strong>to <strong>en</strong> lafigura 5.250


Aplicación a un estudio <strong>en</strong> <strong>en</strong>fermedad <strong>de</strong> Parkinsonsnp18 snp14 snp26 snp24 snp60 snp59 snp16 snp14 snp68 snp52 snp21 snp23snp10 0,04 0,41 0,00 0,09 0,31 0,31 0,07 0,29 0,30 0,30 0,33 0,03snp18 0,10 0,43 0,18 0,07 0,07 0,15 0,06 0,07 0,07 0,07 0,45snp14 0,23 0,57 0,22 0,22 0,51 0,20 0,21 0,21 0,88 0,17snp26 0,10 0,15 0,15 0,07 0,14 0,15 0,15 0,18 0,69snp24 0,37 0,37 0,91 0,34 0,36 0,36 0,50 0,17snp60 1,00 0,37 0,93 0,98 0,97 0,21 0,12snp59 0,37 0,93 0,98 0,97 0,21 0,12snp16 0,34 0,36 0,36 0,56 0,21snp14 0,95 0,93 0,19 0,13snp68 0,99 0,20 0,13snp52 0,20 0,13snp21 0,20Tabla 5.5. Valores <strong>de</strong> r 2 para los SNPs <strong>de</strong>l g<strong>en</strong> KFigura 5.2 . Mapa <strong>de</strong> <strong>de</strong>sequilibrio <strong>de</strong> ligami<strong>en</strong>to para el g<strong>en</strong> K empleando losvalores <strong>de</strong> r 2Pairwise LDPhysical L<strong>en</strong>gth:112.7kbColor Key0 0.2 0.4 0.6 0.8 1En este caso hay varios SNPs con valores <strong>de</strong> r 2 ≥ 0.9: snp24:snp16, snp60:14,snp60:snp68, snp60:52, snp59:snp14, snp59:snp52, snp14:snp52, snp68:snp52.51


Aplicación a un estudio <strong>en</strong> <strong>en</strong>fermedad <strong>de</strong> ParkinsonAunque ninguno <strong>de</strong> ellos está <strong>en</strong>tre los SNPs que pres<strong>en</strong>tan <strong>asociación</strong> significativa,evaluaremos su comportami<strong>en</strong>to <strong>en</strong> los posteriores mo<strong>de</strong>los.Por último realizamos los mismos cálculos para el g<strong>en</strong> M, para el que tan sólo t<strong>en</strong>emosg<strong>en</strong>otipos <strong>de</strong> tres SNPs. Los valores <strong>de</strong> r 2 se muestran <strong>en</strong> la tabla 5.6 y el mapacorrespondi<strong>en</strong>te <strong>en</strong> la figura 5.3.snp25 snp09snp57 0.771 0.633snp25 0.810Tabla 5.6. Valores <strong>de</strong> r 2 para los SNPs <strong>de</strong>l g<strong>en</strong> MFigura 5.3. Mapa <strong>de</strong> <strong>de</strong>sequilibrio <strong>de</strong> ligami<strong>en</strong>to para el g<strong>en</strong> K empleando losvalores <strong>de</strong> y r 2Pairwise LDPhysical L<strong>en</strong>gth:33.5kbColor Key0 0.2 0.4 0.6 0.8 1En este caso no hay SNPs que estén <strong>en</strong> alto <strong>de</strong>sequilibrio <strong>de</strong> ligami<strong>en</strong>to. Todos losvalores <strong>de</strong> r 2 son inferiores a 0.952


Aplicación a un estudio <strong>en</strong> <strong>en</strong>fermedad <strong>de</strong> Parkinson5.3. Selección <strong>de</strong> <strong>variables</strong> y evaluación <strong>de</strong> la capacidad predictivaSelección <strong>de</strong> <strong>variables</strong> mediante test <strong>de</strong> <strong>asociación</strong> univarianteSe seleccionan la <strong>variables</strong> predictoras que pres<strong>en</strong>taron una <strong>asociación</strong> significativacon la variable respuesta aplicando un test <strong>de</strong> <strong>asociación</strong>. Se empleó <strong>de</strong> nuevo elLikelihood Ratio Test (LRT) incorporado <strong>en</strong> la función WGassociation. Esta funciónpermite evaluar la <strong>asociación</strong> bajo difer<strong>en</strong>tes mo<strong>de</strong>los g<strong>en</strong>éticos, <strong>en</strong> este casoescogemos el mo<strong>de</strong>lo log-aditivo. Tan sólo consi<strong>de</strong>ramos los SNPs como <strong>variables</strong>predictoras, <strong>de</strong>scartando otras <strong>variables</strong> como sexo, edad, etc.De este modo se obti<strong>en</strong>e el pvalue correspondi<strong>en</strong>te al LRT. Es necesario establecerun umbral <strong>de</strong> significación para <strong>de</strong>cidir qué <strong>variables</strong> se incorporarán al mo<strong>de</strong>lo <strong>de</strong>regresión multivariante. Mickey & Gre<strong>en</strong>land [37] recomi<strong>en</strong>dan incluir aquellas<strong>variables</strong> cuyo test univariante arroje un p-valor


Aplicación a un estudio <strong>en</strong> <strong>en</strong>fermedad <strong>de</strong> Parkinsonseleccionadas <strong>en</strong> el paso anterior, la validación cruzada ti<strong>en</strong>e que ser aplicada a lasecu<strong>en</strong>cia <strong>en</strong>tera <strong>de</strong> pasos [39] :1) Se divi<strong>de</strong> la muestra <strong>en</strong> k grupos (<strong>en</strong> nuestro estudio k=5). Para cada k,seleccionamos todas las muestras excepto aquellas <strong>en</strong> k, y buscamos aquellas<strong>variables</strong> predictoras cuya <strong>asociación</strong> individual con la variable respuesta seamás fuerte.2) Empleando ese subconjunto <strong>de</strong> predictoras se construye el clasificadormultivariante, utilizando las mismas muestras que <strong>en</strong> el caso anterior (todasexcepto aquellas <strong>en</strong> k).3) Usamos el clasificador para pre<strong>de</strong>cir la etiqueta <strong>de</strong> clase <strong>de</strong> las muestras <strong>en</strong> elgrupo k (set <strong>de</strong> validación/test).En este estudio hemos incorporado la validación cruzada con k=5. De este modoobt<strong>en</strong>emos 5 clasificadores, que <strong>en</strong> nuestro caso son mo<strong>de</strong>los <strong>de</strong> regresión logísticamúltiple. Calculamos las predicciones para cada uno <strong>de</strong> los cinco mo<strong>de</strong>los y paraevaluar el r<strong>en</strong>dimi<strong>en</strong>to <strong>de</strong> los mo<strong>de</strong>los, <strong>en</strong> lugar <strong>de</strong> emplear el error <strong>de</strong> predicciónhemos construido las curvas ROC correspondi<strong>en</strong>tes y calculado el AUC con loscorrespondi<strong>en</strong>tes IC al 95%. Como medida global, repres<strong>en</strong>tamos la curva ROC yestimamos el AUC agregando las predicciones <strong>de</strong> los 5 mo<strong>de</strong>los obt<strong>en</strong>idos mediantevalidación cruzada.Selección mediante regresión logística p<strong>en</strong>alizadaComo indicábamos <strong>en</strong> el capítulo 3 la i<strong>de</strong>a fundam<strong>en</strong>tal <strong>de</strong> este método es lap<strong>en</strong>alización, <strong>de</strong> modo que se evita el sobreajuste imponi<strong>en</strong>do una p<strong>en</strong>alización sobrefluctuaciones gran<strong>de</strong>s <strong>de</strong> los parámetros estimados. La regresión LASSO “<strong>en</strong>coge”algunos coefici<strong>en</strong>tes a 0 (<strong>en</strong> este caso SNPs no informativos), <strong>de</strong> este modo actúatambién como método <strong>de</strong> <strong>selección</strong> <strong>de</strong> <strong>variables</strong>. La elección <strong>de</strong> la constante <strong>de</strong>p<strong>en</strong>alización (λ) es fundam<strong>en</strong>tal. Es necesario un procedimi<strong>en</strong>to que estime el valor <strong>de</strong>este parámetro a partir <strong>de</strong> los datos.Exist<strong>en</strong> difer<strong>en</strong>tes criterios para seleccionar la constante <strong>de</strong> p<strong>en</strong>alización, empleandovalidación cruzada lo más habitual es la regla 1 error estándar. Otra posibilidad es fijarel número máximo <strong>de</strong> <strong>variables</strong> a incluir <strong>en</strong> el mo<strong>de</strong>lo.54


Aplicación a un estudio <strong>en</strong> <strong>en</strong>fermedad <strong>de</strong> ParkinsonLa elección <strong>de</strong>l parámetro <strong>de</strong> p<strong>en</strong>alización controla el número <strong>de</strong> <strong>variables</strong>seleccionadas. Cuanto mayor sea el valor <strong>de</strong>l parámetro, m<strong>en</strong>or el número <strong>de</strong>predictoras incluidas <strong>en</strong> el mo<strong>de</strong>lo. De nuevo empleamos el paquete glmnet y lasfunciones glmnet y cv.glmnet, que ajustan un mo<strong>de</strong>lo <strong>de</strong> regresión logística víamáxima verosimilitud p<strong>en</strong>alizada.En este estudio hemos empleado difer<strong>en</strong>tes métodos para seleccionar el valor <strong>de</strong>lparámetro <strong>de</strong> p<strong>en</strong>alización:(b.1) Mediante validación cruzada (incorporada <strong>en</strong> la función cv.glmnet). Selecciona elvalor <strong>de</strong>l parámetro λ= 1 s.e (mayor valor <strong>de</strong> λ tal que el error está <strong>de</strong>ntro <strong>de</strong> un errorestándar <strong>de</strong>l mínimo). Separamos un set <strong>de</strong> validación y calculamos el AUC para laspredicciones sobre este set <strong>de</strong> validación.(b.2) Del mismo modo que <strong>en</strong> el caso anterior pero con λ= min (valor <strong>de</strong> λ queproduce el mínimo <strong>de</strong> los errores medios <strong>de</strong> validación cruzada).(b.3) Incorporación <strong>de</strong> validación cruzada manualm<strong>en</strong>te. Se fija un número máximo <strong>de</strong><strong>variables</strong>. Con cada training set construimos un mo<strong>de</strong>lo. Análogam<strong>en</strong>te al casoanterior agregamos las predicciones <strong>de</strong> los 5 mo<strong>de</strong>los y repres<strong>en</strong>tamos una únicacurva ROC. Fijamos a 10 el número máximo <strong>de</strong> <strong>variables</strong> a incluir <strong>en</strong> el mo<strong>de</strong>lo, <strong>de</strong>modo que para cada uno <strong>de</strong> los grupos seleccionamos el valor <strong>de</strong> λ correspondi<strong>en</strong>te.(b.4) De manera análoga al método (b.3), <strong>en</strong> este caso se establece el númeromáximo <strong>de</strong> <strong>variables</strong> <strong>en</strong> 20. De igual modo, para obt<strong>en</strong>er una medida global para cadauno <strong>de</strong> los métodos, agregamos las predicciones <strong>de</strong> los 5 mo<strong>de</strong>los para obt<strong>en</strong>er unaúnica curva ROC y el correspondi<strong>en</strong>te AUC.Estos valores (10 y 20) fueron escogidos porque es el rango <strong>en</strong> el que se mueve elnúmero <strong>de</strong> <strong>variables</strong> seleccionadas mediante test <strong>de</strong> <strong>asociación</strong> individual al variar elnivel <strong>de</strong> significación <strong>de</strong> 0.05 a 0.25.Dado que la función glmnet no permite la exist<strong>en</strong>cia <strong>de</strong> “missing values” realizamosuna imputación <strong>de</strong> los datos faltantes mediante la función rfImpute <strong>de</strong>l paqueterandomForest [40]. Esta función imputa los datos faltantes empleando la matriz <strong>de</strong>proximidad <strong>de</strong> randomForest. La recodificación <strong>de</strong> los SNPs para consi<strong>de</strong>rlos bajo unmo<strong>de</strong>lo aditivo la realizamos con la función reco<strong>de</strong>SNPs <strong>de</strong>l paquete scrime [41].55


S<strong>en</strong>sitivity0.0 0.2 0.4 0.6 0.8 1.0S<strong>en</strong>sitivity0.0 0.2 0.4 0.6 0.8 1.0Aplicación a un estudio <strong>en</strong> <strong>en</strong>fermedad <strong>de</strong> Parkinson5.4. Resultados y discusiónSelección mediante test <strong>de</strong> <strong>asociación</strong>Una vez ajustados los mo<strong>de</strong>los <strong>de</strong> regresión con las <strong>variables</strong> seleccionadas para lostres niveles <strong>de</strong> significación establecidos, evaluamos su capacidad predictiva. Lascurvas ROC, junto con los índices AUC y los correspondi<strong>en</strong>tes I.C. 95% obt<strong>en</strong>idospara cada uno <strong>de</strong> los subconjuntos, tras aplicar validación cruzada con k=5 (a.1.1), ypara la agregación <strong>de</strong> predicciones <strong>de</strong> los 5 subconjuntos (a.1.2), se muestran <strong>en</strong> lafiguras 5.4, 5.5 y 5.6 para α=0.05, α=0.1 y α=0.25 respectivam<strong>en</strong>te.Los SNPs seleccionados para cada uno <strong>de</strong> los 5 sets <strong>de</strong> <strong>en</strong>tr<strong>en</strong>ami<strong>en</strong>to para losdistintos niveles <strong>de</strong> significación se muestran <strong>en</strong> la tabla 5.6.Figura 5.4. ROC y AUC para α=0.05ROC CurveROC Curve(k=1) AUC: 0.5457 ( 0.434 - 0.6572 )(k=2) AUC: 0.496 ( 0.384 - 0.6084 )(k=3) AUC: 0.6693 ( 0.564 - 0.7741 )(k=4) AUC: 0.5758 ( 0.466 - 0.6857 )(k=5) AUC: 0.5617 ( 0.451 - 0.6723 )AUC: 0.5547 ( 0.506 - 0.6039 )0.0 0.2 0.4 0.6 0.8 1.01-Specificity0.0 0.2 0.4 0.6 0.8 1.01-Specificity(a.1.1)(a.1.2)56


S<strong>en</strong>sitivity0.0 0.2 0.4 0.6 0.8 1.0S<strong>en</strong>sitivity0.0 0.2 0.4 0.6 0.8 1.0S<strong>en</strong>sitivity0.0 0.2 0.4 0.6 0.8 1.0S<strong>en</strong>sitivity0.0 0.2 0.4 0.6 0.8 1.0Aplicación a un estudio <strong>en</strong> <strong>en</strong>fermedad <strong>de</strong> ParkinsonFigura 5.5. ROC y AUC para α=0.1ROC CurveROC Curve(k=1) AUC: 0.5527 ( 0.441 - 0.6643 )(k=2) AUC: 0.5077 ( 0.394 - 0.6213 )(k=3) AUC: 0.6306 ( 0.523 - 0.7382 )(k=4) AUC: 0.6101 ( 0.501 - 0.7187 )(k=5) AUC: 0.5183 ( 0.406 - 0.631 )AUC: 0.5496 ( 0.5 - 0.5989 )0.0 0.2 0.4 0.6 0.8 1.01-Specificity0.0 0.2 0.4 0.6 0.8 1.01-Specificity(a.2.1)(a.2.2)Figura 5.6. ROC y AUC para α=0.25ROC CurveROC Curve(k=1) AUC: 0.5147 ( 0.403 - 0.6263 )(k=2) AUC: 0.4688 ( 0.356 - 0.5817 )(k=3) AUC: 0.6473 ( 0.54 - 0.755 )(k=4) AUC: 0.594 ( 0.484 - 0.7037 )(k=5) AUC: 0.5559 ( 0.445 - 0.6667 )AUC: 0.5488 ( 0.499 - 0.5981 )0.0 0.2 0.4 0.6 0.8 1.01-Specificity0.0 0.2 0.4 0.6 0.8 1.01-Specificity(a.3.1)(a.3.2)57


Aplicación a un estudio <strong>en</strong> <strong>en</strong>fermedad <strong>de</strong> Parkinsonk=1 k= 2 k= 3 k=.4 k= 5 Totalα0.05α0.1α0.25α0.05α0.1α0.25α0.05α0.1α0.25snp04 1 2snp05 1 2snp09 2 3 4snp10 4 5 5snp13 2 3 5snp15 1snp16 1snp18 2 4 4snp19 1snp21 1 1 1snp23 2snp24 2snp25 2 3 4snp26 3snp27 1snp29 1snp33 1 1snp35 1 2 5snp36 1snp37 5 5 5snp38 5 5 5snp39 5 5 5snp41 1 1snp45 2snp50 2 3 4snp51 3snp54 1snp55 5 5 5snp57 3 4 5snp58 1 2 5snp62 1 1snp63 1 1 3snp64 1α0.05α0.1α0.25α0.05Total 8 11 19 12 15 19 8 10 18 6 11 18 7 9 18α0.1α0.25α0.05α0.1α0.25Tabla 5.6. SNPs seleccionados mediante validación cruzada para los niveles <strong>de</strong>significación α=0.05, α=0.1 y α=0.2558


S<strong>en</strong>sitivity0.0 0.2 0.4 0.6 0.8 1.0Aplicación a un estudio <strong>en</strong> <strong>en</strong>fermedad <strong>de</strong> ParkinsonSelección mediante regresión p<strong>en</strong>alizada LASSO(b.1) Separamos inicialm<strong>en</strong>te 4/5 <strong>de</strong> la muestra que constituirán el set <strong>de</strong><strong>en</strong>tr<strong>en</strong>ami<strong>en</strong>to. Mediante validación cruzada con k=4, estimamos el valor <strong>de</strong>lparámetro <strong>de</strong> p<strong>en</strong>alización que produce 1 s.e. Sobre el set <strong>de</strong> validación, 1/5 <strong>de</strong> lamuestra inicial, calculamos las predicciones para evaluar el mo<strong>de</strong>lo ajustado. Lascurvas ROC y AUCs correspondi<strong>en</strong>tes para ese valor <strong>de</strong> λ se muestran <strong>en</strong> la figura5.7.Figura 5.7. ROC y AUC para λ=1.seROC CurveAUC: 0.574 ( 0.464 - 0.6843 )0.0 0.2 0.4 0.6 0.8 1.01-Specificity(b.2) De modo análogo λ=min. Figura 5.8(b.3) Validación cruzada incorporada manualm<strong>en</strong>te con k=5. Para cada subconjunto seestima el valor <strong>de</strong> λ para incluir un número máximo <strong>de</strong> 10 <strong>variables</strong> <strong>en</strong> el mo<strong>de</strong>lo.Calculamos las predicciones para cada uno <strong>de</strong> los sets <strong>de</strong> validación empleando elparámetro <strong>de</strong> p<strong>en</strong>alización correspondi<strong>en</strong>te. Las curvas ROC y AUCs con I.C 95%para cada uno <strong>de</strong> los sets <strong>de</strong> <strong>en</strong>tr<strong>en</strong>ami<strong>en</strong>to se muestran <strong>en</strong> la figura 5.9 (b.3.1), asícomo las obt<strong>en</strong>idas para la agregación <strong>de</strong> predicciones <strong>de</strong> los 5 sets. (b.3.2)59


S<strong>en</strong>sitivity0.0 0.2 0.4 0.6 0.8 1.0S<strong>en</strong>sitivity0.0 0.2 0.4 0.6 0.8 1.0S<strong>en</strong>sitivity0.0 0.2 0.4 0.6 0.8 1.0Aplicación a un estudio <strong>en</strong> <strong>en</strong>fermedad <strong>de</strong> ParkinsonFigura 5.8. ROC y AUC para λ=1.seROC CurveAUC: 0.5715 ( 0.461 - 0.6823 )0.0 0.2 0.4 0.6 0.8 1.01-SpecificityFigura 5.9. ROC y AUC para un máximo <strong>de</strong> 10 <strong>variables</strong>ROC CurveROC Curve(k=1) AUC: 0.5138 ( 0.402 - 0.6258 )(k=2) AUC: 0.4814 ( 0.369 - 0.5934 )(k=3) AUC: 0.6462 ( 0.539 - 0.7535 )(k=4) AUC: 0.5966 ( 0.487 - 0.7057 )(k=5) AUC: 0.5631 ( 0.452 - 0.6743 )AUC: 0.5417 ( 0.492 - 0.5911 )0.0 0.2 0.4 0.6 0.8 1.01-Specificity0.0 0.2 0.4 0.6 0.8 1.01-Specificity(b.3.1)(b.3.2)(b.4) De manera análoga al método anterior estimamos el valor <strong>de</strong> λ para incluir unnúmero máximo <strong>de</strong> 20 <strong>variables</strong> <strong>en</strong> el mo<strong>de</strong>lo. Resultados <strong>en</strong> figura 5.10.60


S<strong>en</strong>sitivity0.0 0.2 0.4 0.6 0.8 1.0S<strong>en</strong>sitivity0.0 0.2 0.4 0.6 0.8 1.0Aplicación a un estudio <strong>en</strong> <strong>en</strong>fermedad <strong>de</strong> ParkinsonFigura 5.10. ROC y AUC para un máximo <strong>de</strong> 20 <strong>variables</strong>ROC CurveROC Curve(k=1) AUC: 0.5335 ( 0.422 - 0.6449 )(k=2) AUC: 0.4606 ( 0.349 - 0.5726 )(k=3) AUC: 0.6785 ( 0.574 - 0.7829 )(k=4) AUC: 0.5481 ( 0.437 - 0.6594 )(k=5) AUC: 0.5697 ( 0.459 - 0.6804 )AUC: 0.5466 ( 0.497 - 0.5959 )0.0 0.2 0.4 0.6 0.8 1.01-Specificity0.0 0.2 0.4 0.6 0.8 1.01-Specificity(b.4.1)(b.4.2)Los resultados <strong>en</strong> relación al número <strong>de</strong> <strong>variables</strong> seleccionadas <strong>en</strong> función <strong>de</strong>lmétodo empleado se muestran <strong>en</strong> la tabla 5.7.61


Aplicación a un estudio <strong>en</strong> <strong>en</strong>fermedad <strong>de</strong> Parkinsonk= 1 k=2 k=3 k= 4 k= 5 Tot Tot1se min 10 20 10 20 10 20 10 10 10 20 10 20snp01 1snp04 1 2snp05 1 2snp07 2snp09 1 2snp10 5 5snp13 1 2snp14 3snp16 1snp18 4 4snp19 1snp24 3snp25 1 1snp26 1snp27 1snp29 2snp30 1snp35 2 5snp36 1 4snp37 4 5snp38 4 5snp39 1snp41 1 2snp42 1snp44 0snp45 2snp49 4snp50 4 4snp51 2snp52 1snp54 2snp55 5 5snp56snp57 2 4snp58 4 5snp62snp63 1 4snp64 2snp66 1snp69 2snp71 1Total snps 5 12 9 20 7 20 8 20 10 17 9 20Tabla 5.7 SNPs seleccionados mediante validación cruzada para los difer<strong>en</strong>tesmétodos empleando p<strong>en</strong>alización LASSO.62


Aplicación a un estudio <strong>en</strong> <strong>en</strong>fermedad <strong>de</strong> ParkinsonCapacidad predictivaCon el método <strong>de</strong> <strong>selección</strong> por pvalue no se aprecian difer<strong>en</strong>cias <strong>en</strong> cuanto a lacapacidad predictiva estableci<strong>en</strong>do difer<strong>en</strong>tes umbrales <strong>de</strong> significación. Aum<strong>en</strong>tar elnúmero <strong>de</strong> SNPs no afecta a la capacidad predictiva. En este caso no po<strong>de</strong>mos saberqué asociaciones son reales y cuales son falsos positivos. Pue<strong>de</strong> que pvalues <strong>en</strong>tre0.1 y 0.25 correspondan a asociaciones débiles.La máxima capacidad predictiva se obti<strong>en</strong>e al emplear regresión p<strong>en</strong>alizada LASSOcon <strong>selección</strong> <strong>de</strong>l parámetro <strong>de</strong> p<strong>en</strong>alización mediante validación cruzada. Lospolimorfismos incluidos <strong>en</strong> este mo<strong>de</strong>lo pert<strong>en</strong>ec<strong>en</strong> a tres g<strong>en</strong>es K, M y N quepreviam<strong>en</strong>te han sido i<strong>de</strong>ntificados como factores <strong>de</strong> susceptibilidad <strong>en</strong> <strong>en</strong>fermedad <strong>de</strong>Parkinson y otras <strong>en</strong>fermeda<strong>de</strong>s relacionadas, por lo que exist<strong>en</strong> indicios sólidos <strong>de</strong>que se trata <strong>de</strong> asociaciones reales y no falsos positivos. Es posible que laincorporación <strong>de</strong> un número mayor <strong>de</strong> <strong>variables</strong> disminuya la capacidad predictiva <strong>de</strong>los mo<strong>de</strong>los por incorporar <strong>variables</strong> no causales.Esta pue<strong>de</strong> ser la razón <strong>de</strong> que no se apreci<strong>en</strong> ap<strong>en</strong>as difer<strong>en</strong>cias <strong>en</strong>tre los AUCsobt<strong>en</strong>idos al emplear regresión LASSO y pasar <strong>de</strong> permitir como máximo 10 <strong>variables</strong><strong>en</strong> el mo<strong>de</strong>lo a 20 (0.5417 fr<strong>en</strong>te a 0.5466). Del mismo modo al ser m<strong>en</strong>os restrictivoscon el nivel <strong>de</strong> significación <strong>en</strong> el caso <strong>de</strong> <strong>selección</strong> por pvalue tampoco se aprecianmuchas difer<strong>en</strong>cias (0.5547 para α=0.05, 0.5496 para α=0.1 y 0.5488 para α=0.25).Aunque sí parece haber una t<strong>en</strong><strong>de</strong>ncia a disminuir el AUC al permitir la <strong>en</strong>trada <strong>de</strong><strong>variables</strong> más débilm<strong>en</strong>te asociadas con la respuesta. Si aplicásemos corrección paracomparaciones múltiples consi<strong>de</strong>rando False Discovery Rate (paquete qvalue) [42],tan solo un SNP sería significativo: snp55 (qvalue=0.0431) y sería el único que pasaríaa formar parte <strong>de</strong>l mo<strong>de</strong>lo.La capacidad predictiva <strong>de</strong>l mejor <strong>de</strong> los mo<strong>de</strong>los es muy baja. Aunque un marcadorpres<strong>en</strong>te una <strong>asociación</strong> significativa esto no implica que sea un bu<strong>en</strong> clasificador,para que así fuera <strong>de</strong>bería pres<strong>en</strong>tar Odds Ratio <strong>de</strong> magnitu<strong>de</strong>s muy superiores a las<strong>en</strong>contradas <strong>en</strong> los <strong>estudios</strong> <strong>de</strong> <strong>asociación</strong> [43].63


Aplicación a un estudio <strong>en</strong> <strong>en</strong>fermedad <strong>de</strong> ParkinsonSNPs seleccionadosEn el caso <strong>de</strong> <strong>selección</strong> <strong>de</strong> <strong>variables</strong> mediante pvalue, si t<strong>en</strong>emos <strong>en</strong> cu<strong>en</strong>ta los SNPsseleccionados <strong>en</strong> los 5 subconjuntos, observamos que son 4 para α=0.05 (snp37,snp38, snp39 y snp55), 5 para α=0.1 (snp10, snp37, snp38, snp39 y snp55) y 9 parα=0.25 (snp10, snp13, snp35, snp37, snp38, snp39, snp55, snp57 y snp58). En lasdos primeras situaciones todos los SNPs pert<strong>en</strong>ec<strong>en</strong> a los g<strong>en</strong>es m<strong>en</strong>cionados, por lotanto exist<strong>en</strong> evi<strong>de</strong>ncias <strong>de</strong> que sean variantes causales (o que estén <strong>en</strong> LD con lasverda<strong>de</strong>ras variantes causales).En el caso <strong>de</strong> la regresión LASSO, para estimación <strong>de</strong> λ por validación cruzada,t<strong>en</strong>emos un mo<strong>de</strong>lo con 5 SNPs (snp18, snp37, snp38, snp55 y snp57). Igualm<strong>en</strong>teestos SNPs pert<strong>en</strong>ec<strong>en</strong> a los tres g<strong>en</strong>es K, M y N.Si analizamos los dos métodos t<strong>en</strong>i<strong>en</strong>do <strong>en</strong> cu<strong>en</strong>ta las situaciones <strong>de</strong> <strong>de</strong>sequilibrio <strong>de</strong>ligami<strong>en</strong>to <strong>en</strong>tre las <strong>variables</strong> observamos lo sigui<strong>en</strong>te: al emplear la técnica <strong>de</strong><strong>selección</strong> por pvalue, <strong>en</strong> todos los casos se han seleccionados los snps 37, 38 y 39. Alajustar el mo<strong>de</strong>lo <strong>de</strong> regresión logística múltiple nos da el aviso “prediction from arank-<strong>de</strong>fici<strong>en</strong>t fit may be misleading” <strong>de</strong> modo que no existe solución única y algunas<strong>de</strong> las estimaciones <strong>de</strong> los parámetros son NAs. Eliminamos manualm<strong>en</strong>te la <strong>variables</strong>correspondi<strong>en</strong>tes <strong>de</strong>l mo<strong>de</strong>lo, que <strong>en</strong> la totalidad <strong>de</strong> los casos se correspon<strong>de</strong> con elsnp38. En la regresión LASSO po<strong>de</strong>mos observar que <strong>en</strong> todos los casos exceptouno, se elimina el snp39. El coefici<strong>en</strong>te <strong>de</strong> correlación <strong>en</strong>tre el snp38 y snp39 esprácticam<strong>en</strong>te 1 (0.999), esto es indicativo <strong>de</strong> la pres<strong>en</strong>cia <strong>de</strong> colinealidad exacta <strong>en</strong>treambos SNPs. El método LASSO “<strong>en</strong>coge” el coefici<strong>en</strong>te <strong>de</strong> una <strong>de</strong> las <strong>variables</strong> a 0.En cuanto a la relación <strong>en</strong>tre el snp37 y snp38, que también pres<strong>en</strong>ta fuertecolinealidad, las estimaciones correspondi<strong>en</strong>tes <strong>de</strong> los coefici<strong>en</strong>tes <strong>de</strong> regresiónaplicando LASSO, son -4.367078e-02 y -3.868657e-23 respectivam<strong>en</strong>te, por lo tanto laregresión LASSO “<strong>en</strong>coge” el coefici<strong>en</strong>te <strong>de</strong>l segundo SNP prácticam<strong>en</strong>te a 0.Tanto al ajustar un mo<strong>de</strong>lo <strong>de</strong> regresión logística múltiple como al aplicar p<strong>en</strong>alizaciónLASSO, se consigu<strong>en</strong> i<strong>de</strong>ntificar situaciones <strong>de</strong> colinealidad exacta – <strong>de</strong>sequilibrio <strong>de</strong>ligami<strong>en</strong>to completo-. En el primer caso se eliminan las <strong>variables</strong> manualm<strong>en</strong>te <strong>de</strong>lmo<strong>de</strong>lo y <strong>en</strong> el segundo caso lo hace automáticam<strong>en</strong>te. En cuanto a otras <strong>variables</strong>que pres<strong>en</strong>tan fuerte colinealidad, la regresión LASSO “contrae” los coefici<strong>en</strong>tesprácticam<strong>en</strong>te a 0. Exist<strong>en</strong> varias refer<strong>en</strong>cias <strong>en</strong> cuanto a la capacidad <strong>de</strong> la regresiónp<strong>en</strong>alizada LASSO para <strong>de</strong>tectar situaciones <strong>de</strong> <strong>de</strong>sequilibrio <strong>de</strong> ligami<strong>en</strong>to [25,44]. En64


Aplicación a un estudio <strong>en</strong> <strong>en</strong>fermedad <strong>de</strong> Parkinsonellas <strong>de</strong>stacan que <strong>en</strong> pres<strong>en</strong>cia <strong>de</strong> <strong>variables</strong> altam<strong>en</strong>te correlacionadas, LASSO ti<strong>en</strong>ea seleccionar tan solo una variable <strong>de</strong>l grupo sin importar cuál es la seleccionada. Hayevi<strong>de</strong>ncias que <strong>en</strong> situaciones don<strong>de</strong> n>p, y <strong>en</strong> pres<strong>en</strong>cia <strong>de</strong> fuertes correlaciones<strong>en</strong>tre las <strong>variables</strong> predictoras, la capacidad predictiva <strong>de</strong> la regresión ridge essuperior al LASSO. Regresión p<strong>en</strong>alizada mediante Elastic net podría ser unaalternativa, ya que combina <strong>selección</strong> <strong>de</strong> <strong>variables</strong> al igual que la regresión LASSO, ycontrae conjuntam<strong>en</strong>te los coefici<strong>en</strong>tes <strong>de</strong> <strong>variables</strong> correlacionadas al igual que laregresión ridge. Este método ha sido aplicado <strong>en</strong> GWAS [26] y podría ser unapropuesta para continuar investigando métodos <strong>de</strong> <strong>selección</strong> <strong>de</strong> <strong>variables</strong>.65


Conclusiones6. ConclusionesRespecto al objetivo metodológico1. Ambos métodos (LASSO y <strong>selección</strong> mediante test univariante) <strong>de</strong>tectaron conefici<strong>en</strong>cia similar la exist<strong>en</strong>cia <strong>de</strong> <strong>asociación</strong> <strong>de</strong> los g<strong>en</strong>es K, M y N a la <strong>en</strong>fermedad<strong>de</strong> Parkinson.2. Mi<strong>en</strong>tras que la capacidad predictiva <strong>de</strong> los mo<strong>de</strong>los obt<strong>en</strong>idos con los dos métodoses muy similar <strong>en</strong> el estudio <strong>de</strong> simulación, <strong>en</strong> la aplicación a datos reales, el mayorvalor <strong>de</strong> AUC se obti<strong>en</strong>e al emplear regresión LASSO con estimación <strong>de</strong>l parámetro <strong>de</strong>p<strong>en</strong>alización mediante validación cruzada.3. La capacidad para i<strong>de</strong>ntificar SNPs causales bajo difer<strong>en</strong>tes esc<strong>en</strong>arios <strong>en</strong> elestudio <strong>de</strong> simulación empleando regresión LASSO fue superior que empleando elmétodo <strong>de</strong> <strong>selección</strong> por pvalue.4. La capacidad predictiva <strong>de</strong> los perfiles g<strong>en</strong>éticos <strong>en</strong> <strong>en</strong>fermeda<strong>de</strong>s complejas esescasa. Aunque un marcador pres<strong>en</strong>te una fuerte <strong>asociación</strong> esto no implica que seaun bu<strong>en</strong> clasificador, para lo cual <strong>de</strong>bería pres<strong>en</strong>tar Odds Ratio <strong>de</strong> magnitu<strong>de</strong>s muysuperiores a las <strong>en</strong>contradas habitualm<strong>en</strong>te <strong>en</strong> los <strong>estudios</strong> <strong>de</strong> <strong>asociación</strong> g<strong>en</strong>ética.Respecto al objetivo aplicado1. Los g<strong>en</strong>es K, M y N se asocian con la susceptibilidad a <strong>de</strong>sarrollar <strong>en</strong>fermedad <strong>de</strong>Parkinson. Aunque sólo uno <strong>de</strong> los polimorfismos estudiados supera corrección FDRpara comparaciones múltiples <strong>en</strong> nuestra investigación, la exist<strong>en</strong>cia <strong>de</strong> evi<strong>de</strong>nciasprevias sugestivas <strong>de</strong> <strong>asociación</strong> con marcadores <strong>en</strong> los mismos g<strong>en</strong>es hace probableque se trate <strong>de</strong> asociaciones verda<strong>de</strong>ras.2. Son necesarios <strong>estudios</strong> adicionales para elucidar si las variantes g<strong>en</strong>éticasasociadas i<strong>de</strong>ntificadas ti<strong>en</strong><strong>en</strong> un papel causal <strong>en</strong> la patología o bi<strong>en</strong> se trata <strong>de</strong>polimorfismos <strong>en</strong> <strong>de</strong>sequilibrio <strong>de</strong> ligami<strong>en</strong>to con las verda<strong>de</strong>ras variantes causales.3. Los mo<strong>de</strong>los predictivos basados exclusivam<strong>en</strong>te <strong>en</strong> los marcadores polimórficosestudiados <strong>en</strong> el pres<strong>en</strong>te trabajo no son <strong>de</strong> utilidad <strong>en</strong> la práctica clínica rutinaria parael diagnóstico <strong>de</strong> la <strong>en</strong>fermedad <strong>de</strong> Parkinson <strong>de</strong>bido a su escaso valor predictivo. Son66


Conclusionesnecesarias investigaciones adicionales para i<strong>de</strong>ntificar nuevos factores <strong>de</strong>susceptibilidad así como patrones g<strong>en</strong>éticos más complejos que permitan <strong>de</strong>sarrollarmo<strong>de</strong>los predictivos basados <strong>en</strong> perfiles g<strong>en</strong>éticos para esta <strong>en</strong>fermedad.67


Refer<strong>en</strong>ciasRefer<strong>en</strong>cias[1] Laird, N.M. and Lange,C. (2011).The Fundam<strong>en</strong>tals of Mo<strong>de</strong>rn Statistical G<strong>en</strong>etics.1st EditionXIV, 226 p.[2] Neale, B.M. (2008). Statistical G<strong>en</strong>etics: G<strong>en</strong>e Mapping Through Linkage andAssociation. Taylor & Francis Group, 574 p.[3] International HapMap Consortium. (2003).The International HapMap Project.Nature, 426:789-96.[4] Lewontin, R.C. and Kojima, K.(1960). The evolutionary dynamics of complexpolymorphisms. Evolution, 14:458-472.[5] Lewontin, R.C. (1964). The interaction of selection and linkage. I. G<strong>en</strong>eralconsi<strong>de</strong>rations; heterotic mo<strong>de</strong>ls". G<strong>en</strong>etics, 49: 49-67.[6] Hill, W.G. and Robertson, A. (1968). Linkage disequilibrium in finitepopulations.Theor Appl G<strong>en</strong>et, 38: 226-231.[7] Lan<strong>de</strong>r, E.S. (1996). The new g<strong>en</strong>omics: global views of biology. Sci<strong>en</strong>ce, 274:536–539.[8] Chakravarti, A. (1999) Population g<strong>en</strong>etics –making s<strong>en</strong>se out of sequ<strong>en</strong>ce. NatG<strong>en</strong>et, 22: 56–60[9] Pritchard, J.K.(2001). Are Rare Variants Responsible for Susceptibility to ComplexDiseases? Am J Hum G<strong>en</strong>et, 69:124–137.[10] Cirulli, E.T. and Goldstein, D.B. (2010). Uncovering the roles of rare variants incommon disease through whole-g<strong>en</strong>ome sequ<strong>en</strong>cing. Nat Rev G<strong>en</strong>et, 11(6):415-425.[11] Bellman, R. (1961) Adaptive Control Processes. Princeton NJ: Princeton UniversityPress.[12] Hei<strong>de</strong>ma, A.G., Boer, J.M., Nagelkerke, N,, Mariman, E.C., van <strong>de</strong>r A, D.L.and Fesk<strong>en</strong>s, E.J. (2006) .The chall<strong>en</strong>ge for g<strong>en</strong>etic epi<strong>de</strong>miologists: how to analyzelarge numbers of SNPs in relation to complex diseases. BMC G<strong>en</strong>et., 7:23.[13] Tibshirani, R. (1996). Regression shrinkage and selection via the LASSO. J RStatis Soc, 58:267-288.[14] Ayers, K.L. and Cor<strong>de</strong>ll, H.J. (2010). SNP selection in g<strong>en</strong>ome-wi<strong>de</strong> and candidateg<strong>en</strong>e studies via p<strong>en</strong>alized logistic regression. G<strong>en</strong>et Epi<strong>de</strong>miol. 34(8):879-89168


Refer<strong>en</strong>cias[15] Wu, T.T., Ch<strong>en</strong>, Y.F., Hastie, T., Sobel, E. and Lange, K. (2009). G<strong>en</strong>ome-wi<strong>de</strong>association analysis by lasso p<strong>en</strong>alized logistic regression. Bioinformatics,25(6):714-721.[16] Park, M.Y., Hastie,T. (2008). P<strong>en</strong>alized logistic regression for <strong>de</strong>tecting g<strong>en</strong>einteractions. Biostatistics, 9(1):30-50.[17] Armitage, P. (1955) Tests for linear tr<strong>en</strong>ds in proportions and frequ<strong>en</strong>cies.Biometrics, 11:375–386.[18] Slager, S.L. and Schaid, D.J. (2001). Case-control studies of g<strong>en</strong>etic markers:power and sample size approximations for Armitage's test for tr<strong>en</strong>d. HumHered,52(3):149-53.[19] Hosmer, D. W. and Lemeshow, S. (1989). Applied Logistic Regression, 1stedition. New.York: John Wiley & Sons, Inc.[20] Lokhorst, J. (1999).The lasso and g<strong>en</strong>eralised linear mo<strong>de</strong>ls. Technical Report.University of A<strong>de</strong>lai<strong>de</strong>, A<strong>de</strong>lai<strong>de</strong>.[21] Sheva<strong>de</strong>, S. and Keerthi, S. (2003). A simple and effici<strong>en</strong>t algorithm for g<strong>en</strong>eselection using sparse logistic regression. Bioinformatics, 19: 2246–2253.[22] Hoerl, A.E. and Ke<strong>en</strong>ard, R.W. (1970). Ridge regression: Biased estimation fornonorthogonal problems. Technometrics 12: 55-67.[23] Hastie, T. and Tibshirani, R. (2004). Effici<strong>en</strong>t quadratic regularization forexpression arrays. Biostatistic,. 5(3):329-340.[24] Malo, N., Libiger, O. and Schork ,N.J. (2008). Accommodating linkagedisequilibrium in g<strong>en</strong>etic-association analyses via ridge regression. Am J Hum G<strong>en</strong>et,82(2):375-385.[25] Zou, H. and and Hastie, T. (2005). Regularization and variable selection via theelastic net. J R Statist Soc B, 67(2):301–320.[26] Cho, S., Kim, H., Oh. S., Kim, K. and Park,T. (2009).Elastic-net regularizationapproaches for g<strong>en</strong>ome-wi<strong>de</strong> association studies of rheumatoid arthritis. BMC Proc,3Suppl 7:S25.[27] Swets, J.A. and Pickett, R.M. (1982). Evaluation of Diagnostic Systems: Methodsfrom Signal Detection theory. New York: Aca<strong>de</strong>mic69


Refer<strong>en</strong>cias[28] Calle, M.L., Urrea V., Boulesleix A.L. and Malats, N. (2011). AUC-RF: A newstrategy for g<strong>en</strong>omic profiling with Random Forest (submitted manuscript).[29] Janss<strong>en</strong>s, A.C., Aulch<strong>en</strong>ko, Y.S., Elefante,S., Borsboom, G.J., Steyerberg, E.W.and van Duijn, C.M. (2006). Predictive testing for complex diseases using multipleg<strong>en</strong>es: fact or fiction? G<strong>en</strong>et Med,8(7):395-400.[30] Zang, Y., Fung, W.K. and Zh<strong>en</strong>g, G.(2010). Simple algorithms to calculate theasymptotic null distributions of robust tests in case-control g<strong>en</strong>etic association studiesin R. Journal of Statistical Software 33(8).[31] Zh<strong>en</strong>g, G., Freidlin, B., Li, Z. and Gastwirth, J.L. (2003). Choice of scores in tr<strong>en</strong>dtests for case control studies of candidate-g<strong>en</strong>e associations. Biometrical Journal,45,:335-348.[32] DeLong, E.R., DeLong, D.M. and Clarke-Pearson, D.L. (1988). Comparing theAreas Un<strong>de</strong>r Two or More Correlated Receiver Operating Characteristic Curves: ANonparametric Approach, Biometrics, 44: 837-845.[33] Friedman, J., Hastie, T. and Tibshirani, R. (2010). Regularization Paths forG<strong>en</strong>eralized Linear Mo<strong>de</strong>ls via Coordinate Desc<strong>en</strong>t, Journal of Statistical Software,33(1):1-22.[34] González, J.R., Arm<strong>en</strong>gol, L., Solé, X., Guinó, E., Merca<strong>de</strong>r, J.M., Estivill, X. andMor<strong>en</strong>o, V. (2007). SNPassoc: an R package to perform whole g<strong>en</strong>ome associationstudies. Bioinformatics, 23(5):644-645.[35] Barrett, J.C., Fry,B., Maller, J. and Daly, M.J. (2005).Haploview: analysis andvisualization of LD and haplotype maps. Bioinformatics, 21:263-265.[36] Shin, J-H., Blay, S., McN<strong>en</strong>ey, B. and Graham, J. (2006). LDheatmap: An RFunction for Graphical Display of Pairwise Linkage Disequilibria Betwe<strong>en</strong> SingleNucleoti<strong>de</strong> Polymorphisms. Journal of Statistical Software, 16 Co<strong>de</strong> Snippet 3.[37] Mickey, R.M. and Gre<strong>en</strong>land, S. (1989). The impact of confoun<strong>de</strong>r selectioncriteria on effect estimation. American Journal of Epi<strong>de</strong>miology, 129:125-137.[38] R Developm<strong>en</strong>t Core Team (2011). R: A language and <strong>en</strong>vironm<strong>en</strong>t for statisticalcomputing. R Foundation for Statistical Computing, Vi<strong>en</strong>na, Austria. ISBN 3-900051-07-0, URL http://www.R-project.org/.70


Refer<strong>en</strong>cias[39] Hastie, T., Tibshirani, R. and Friedman, J. (2001). The Elem<strong>en</strong>ts of StatisticalLearning. Data Mining, Infer<strong>en</strong>ce and Prediction. New York: Springer-Verlag.[40] Breiman,L. (2003). Manual for Setting Up, Using, and Un<strong>de</strong>rstanding RandomForest V4.0. http://oz.berkeley.edu/users/breiman/Using_random_forests_v4.0.pdf[41] Schw<strong>en</strong><strong>de</strong>r, H. and with a contribution of Fritsch, A. (2011). scrime: Analysis ofHigh-Dim<strong>en</strong>sional Categorical Data such as SNP Data. R package version 1.2.6.http://CRAN.R-project.org/package=scrime[42] Storey JD. (2002) A direct approach to false discovery rates. J R Statist Soc B,64: 479-498.[43] Pepe, M.S., Janes, H., Longton, G., Leis<strong>en</strong>ring,W. and Newcomb, P. (2004).Limitations of the odds ratio in gauging the performance of a diagnostic, prognostic, orscre<strong>en</strong>ing marker. Am J Epi<strong>de</strong>miol, 159:882–890.[44] Park, M.Y. and Hastie, T. (2007). L1-regularization path algorithm for g<strong>en</strong>eralizedlinear mo<strong>de</strong>ls. J R Statist Soc B 69(4):659–67771

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!