Firmas Gen´eticas en secuencias de ADN: Un an´alisis en Regiones ...
Firmas Gen´eticas en secuencias de ADN: Un an´alisis en Regiones ...
Firmas Gen´eticas en secuencias de ADN: Un an´alisis en Regiones ...
Create successful ePaper yourself
Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.
II SIMPOSIO PERUANO DE COMPUTACIÓN GRÁFICA Y PROCESAMIENTO DE IMÁGENES, SCGI-2008 1<br />
<strong>Firmas</strong> G<strong>en</strong>éticas <strong>en</strong> secu<strong>en</strong>cias <strong>de</strong> <strong>ADN</strong>:<br />
<strong>Un</strong> análisis <strong>en</strong> <strong>Regiones</strong> Codificantes y no<br />
Codificantes <strong>de</strong> Proteínas<br />
Rosario Medina Rodriguez, Jesus M<strong>en</strong>a-Chalco<br />
Resum<strong>en</strong> — La repres<strong>en</strong>tación <strong>de</strong> g<strong>en</strong>omas completos, compuestos por millones <strong>de</strong> nucleótidos, usando estructuras<br />
g<strong>en</strong>ómicas o compon<strong>en</strong>tes m<strong>en</strong>ores ha sido objeto <strong>de</strong> at<strong>en</strong>ción <strong>en</strong> los últimos años pues se acredita fuertem<strong>en</strong>te que<br />
toda especie biológica exist<strong>en</strong>te pue<strong>de</strong> ser repres<strong>en</strong>tada por una “Firma G<strong>en</strong>ética”. Po<strong>de</strong>mos interpretar la d<strong>en</strong>ominada<br />
firma g<strong>en</strong>ética como un conjunto <strong>de</strong> medidas, <strong>de</strong>p<strong>en</strong>di<strong>en</strong>tes <strong>de</strong> resolución o granularidad, que intrínsecam<strong>en</strong>te<br />
repres<strong>en</strong>ta la organización primaria <strong>de</strong> una secu<strong>en</strong>cia <strong>de</strong> <strong>ADN</strong> <strong>de</strong> un organismo. Hoy <strong>en</strong> día, <strong>en</strong> el área <strong>de</strong> Bioinformática<br />
a nivel <strong>de</strong> nucleótidos, la prioridad es obt<strong>en</strong>er la mayor cantidad <strong>de</strong> información posible <strong>de</strong> cada g<strong>en</strong>oma<br />
secu<strong>en</strong>ciado, con la finalidad <strong>de</strong> conseguir un mejor <strong>en</strong>t<strong>en</strong>dimi<strong>en</strong>to <strong>de</strong> la taxonomía y composición g<strong>en</strong>ómica <strong>de</strong> los<br />
organismos. En el pres<strong>en</strong>te artículo, correspondi<strong>en</strong>te al tema <strong>de</strong> tesis <strong>de</strong> pre-grado aún <strong>en</strong> <strong>de</strong>sarrollo, se <strong>de</strong>scribe una<br />
breve introducción a las firmas g<strong>en</strong>éticas usando Chaos Game Repres<strong>en</strong>tation of Frequ<strong>en</strong>cies (FCGR) y como parte inédito<br />
se evalúa la influ<strong>en</strong>cia que ti<strong>en</strong><strong>en</strong> las regiones codificantes y no codificantes <strong>de</strong> proteínas <strong>en</strong> la repres<strong>en</strong>tación <strong>de</strong><br />
g<strong>en</strong>omas, realizada <strong>en</strong> este caso, a través <strong>de</strong> firmas g<strong>en</strong>éticas.<br />
Términos <strong>de</strong> in<strong>de</strong>xación — <strong>Regiones</strong> Codificantes, <strong>Regiones</strong> no Codificantes, <strong>Firmas</strong> G<strong>en</strong>éticas, FCGR.<br />
1. Introducción<br />
La reci<strong>en</strong>te disponibilidad <strong>de</strong> largas secu<strong>en</strong>cias<br />
g<strong>en</strong>ómicas abr<strong>en</strong> un nuevo campo <strong>de</strong> investigación<br />
<strong>de</strong>dicado al análisis <strong>de</strong> su estructura. (Beutleretal.1989;Woese,Kandler,y<br />
Wheelis 1990; Charlesworth<br />
1994; Sharpand Matassi 1994;Doolittle 1997; Maleyand<br />
Marshall 1998).<br />
Actualm<strong>en</strong>te existe una gran cantidad <strong>de</strong> organismos<br />
con secu<strong>en</strong>cias <strong>de</strong> <strong>ADN</strong> <strong>de</strong> g<strong>en</strong>omas completos conocidos<br />
y almac<strong>en</strong>ados <strong>en</strong> repositorios <strong>de</strong> datos g<strong>en</strong>éticos para su<br />
posterior análisis 1 .<br />
Los g<strong>en</strong>omas al estar conformados por millones <strong>de</strong> nucleótidos,<br />
hac<strong>en</strong> que los análisis sobre los mismos result<strong>en</strong><br />
complejos y a veces no realizables <strong>de</strong>bido a limitaciones<br />
computacionales (como <strong>de</strong> memoria y procesami<strong>en</strong>to).<br />
Por ese motivo <strong>en</strong> la comunidad <strong>de</strong> Bioinformática existe<br />
la preocupación <strong>de</strong> <strong>en</strong>contrar una forma <strong>de</strong> caracterización<br />
<strong>de</strong> g<strong>en</strong>omas que permita realizar una repres<strong>en</strong>tación<br />
<strong>de</strong> los mismos <strong>de</strong> manera que muestr<strong>en</strong> sus características<br />
principales (con una reducción <strong>en</strong> su dim<strong>en</strong>sionalidad).<br />
Así, una forma <strong>de</strong> caracterizar un g<strong>en</strong>oma es<br />
conocida como “firma g<strong>en</strong>ética”.<br />
El trabajo <strong>de</strong> tesis, aún <strong>en</strong> <strong>de</strong>sarrollo, se esta ori<strong>en</strong>tando<br />
al estudio inédito <strong>de</strong> la influ<strong>en</strong>cia <strong>de</strong> las regiones g<strong>en</strong>ómicas<br />
(regiones codificantes y regiones no codificantes) <strong>en</strong><br />
las firmas g<strong>en</strong>éticas, es <strong>de</strong>cir, que regiones conti<strong>en</strong><strong>en</strong> mayor<br />
cantidad <strong>de</strong> información relevante <strong>en</strong> la secu<strong>en</strong>cia <strong>de</strong><br />
Rosario Medina R. es estudiante <strong>de</strong> Quinto Año <strong>de</strong> la Escuela Profesional<br />
<strong>de</strong> Ing<strong>en</strong>iería <strong>de</strong> Sistemas <strong>de</strong> la <strong>Un</strong>iversidad Nacional <strong>de</strong> San<br />
Agustín, Arequipa. Perú. E-mail: rosario1316@gmail.com<br />
Jesus M<strong>en</strong>a-Chalco es estudiante <strong>de</strong> Doctorado <strong>de</strong> la <strong>Un</strong>iversidad<br />
<strong>de</strong> São Paulo (IME-USP). Brasil. E-mail: jm<strong>en</strong>a@vision.ime.usp.br<br />
1 <strong>Un</strong>o <strong>de</strong> los repositorios g<strong>en</strong>éticos ampliam<strong>en</strong>te conocido es el<br />
pert<strong>en</strong>eci<strong>en</strong>te al National C<strong>en</strong>ter for Biotechnology Information (NCBI):<br />
www.ncbi.nlm.nih.gov/<br />
<strong>ADN</strong>, para caracterizar al g<strong>en</strong>oma; permiti<strong>en</strong>do así reducir<br />
aun mas la dim<strong>en</strong>sionalidad y a la vez el costo <strong>de</strong><br />
almac<strong>en</strong>ami<strong>en</strong>to y análisis <strong>de</strong> las mismas, al usar sólo las<br />
regiones más importantes.<br />
El resto <strong>de</strong>l artículo esta organizado <strong>de</strong> la sigui<strong>en</strong>te<br />
manera: En la sección 2 son tratados algunos conceptos<br />
básicos sobre el trabajo <strong>de</strong> manera que sea <strong>de</strong> rápido <strong>en</strong>t<strong>en</strong>dimi<strong>en</strong>to.<br />
En la sección 3, se verán algunos trabajos<br />
previos que justifiqu<strong>en</strong> el pres<strong>en</strong>te. La técnica a usar para<br />
repres<strong>en</strong>tar los g<strong>en</strong>omas, será vista <strong>en</strong> la sección 4. El conjunto<br />
<strong>de</strong> datos usados <strong>en</strong> el trabajo esta <strong>de</strong>scrito <strong>en</strong> la sección<br />
5. Algunas técnicas <strong>de</strong> agrupami<strong>en</strong>to <strong>en</strong> la sección<br />
6. Finalm<strong>en</strong>te, <strong>en</strong> las secciones 7 y 8 son mostrados los<br />
resultados obt<strong>en</strong>idos, su apropiada disposición y conclusiones,<br />
respectivam<strong>en</strong>te.<br />
2. Conceptos Básicos<br />
2.1. <strong>Firmas</strong> G<strong>en</strong>éticas<br />
<strong>Un</strong>a firma g<strong>en</strong>ética esta asociada con un ord<strong>en</strong> particular<br />
o una longitud <strong>de</strong> subsecu<strong>en</strong>cia que repres<strong>en</strong>ta una<br />
medida <strong>de</strong> la resolución o granularidad <strong>en</strong> el análisis <strong>de</strong> la<br />
organización primaria <strong>de</strong> una secu<strong>en</strong>cia <strong>de</strong> <strong>ADN</strong>, según<br />
[13].<br />
2.2. <strong>Regiones</strong> Codificantes y No codificantes<br />
Cuando un nuevo organismo es secu<strong>en</strong>ciado se <strong>de</strong>sea<br />
obt<strong>en</strong>er toda la información posible <strong>de</strong> su g<strong>en</strong>oma, si<strong>en</strong>do<br />
un paso fundam<strong>en</strong>tal la id<strong>en</strong>tificación <strong>de</strong> g<strong>en</strong>es pres<strong>en</strong>tes<br />
<strong>en</strong> su estructura g<strong>en</strong>ómica. Esta id<strong>en</strong>tificación correspon<strong>de</strong><br />
a la <strong>de</strong>terminación <strong>de</strong> las regiones codificantes<br />
<strong>de</strong> proteínas (CDS, Coding Sequ<strong>en</strong>ces) [9].<br />
Paper ID (c) 2008 SCG<br />
Published by SCG
FIRMAS GENÉTICAS EN SECUENCIAS DE <strong>ADN</strong> 2<br />
La Región para la codificación <strong>de</strong> Proteínas (CDS), para<br />
organismos procariontes se consi<strong>de</strong>ra una única región,<br />
<strong>en</strong>tre tanto para organismos eucariontes es consi<strong>de</strong>rada<br />
una secu<strong>en</strong>cia alternada <strong>de</strong> exones/intrones separadas<br />
por regiones <strong>de</strong> corte y regiones aceptadoras.<br />
Se consi<strong>de</strong>ra a un exón como una región necesaria para<br />
la codificación <strong>de</strong> proteínas. De se mismo modo, se consi<strong>de</strong>ra<br />
a un intrón como una región no pres<strong>en</strong>te <strong>en</strong> la codificación,<br />
a m<strong>en</strong>udo ext<strong>en</strong>sas y con funciones aún <strong>de</strong>sconocidas<br />
[2].<br />
3. Trabajos Previos<br />
Entre las difer<strong>en</strong>tes formas <strong>de</strong> repres<strong>en</strong>tar secu<strong>en</strong>cias<br />
<strong>de</strong> <strong>ADN</strong>, t<strong>en</strong>emos:<br />
Chaos Game Repres<strong>en</strong>tation (CGR) fue propuesta como<br />
una repres<strong>en</strong>tación in<strong>de</strong>p<strong>en</strong>di<strong>en</strong>te <strong>de</strong> la escala<br />
para secu<strong>en</strong>cias g<strong>en</strong>ómicas por Jeffrey <strong>en</strong> 1990 [7].<br />
La técnica, formalm<strong>en</strong>te un mapa interactivo, pue<strong>de</strong><br />
remontarse aun mas atrás, a los fundam<strong>en</strong>tos <strong>de</strong><br />
la mecánica estadística, <strong>en</strong> particular a la teoría <strong>de</strong>l<br />
Caos (Bar-Yam, 1997).<br />
El espacio CGR es un sistema contínuo <strong>de</strong> refer<strong>en</strong>cia,<br />
don<strong>de</strong> todas las posibles secu<strong>en</strong>cias <strong>de</strong> cualquier longitud<br />
ti<strong>en</strong><strong>en</strong> una única posición. Consecu<strong>en</strong>tem<strong>en</strong>te<br />
toda posible sucesión <strong>de</strong> nucleótidos será codificada<br />
<strong>en</strong> un espacio continuo [1].<br />
Sin embargo <strong>en</strong> [4], se <strong>de</strong>sarrolla una versión<br />
<strong>de</strong>l método <strong>de</strong> CGR, [1] propuso el nombre FC-<br />
GR(matrices <strong>de</strong> frecu<strong>en</strong>cia extraídas <strong>de</strong> CGR) para<br />
nombrar esta modificación <strong>de</strong> Chaos Game Repres<strong>en</strong>tation,<br />
que permite la cuantificación <strong>de</strong> patrones observados<br />
y un procesami<strong>en</strong>to rápido <strong>de</strong> secu<strong>en</strong>cias<br />
muy largas.<br />
En [7] se propuso la repres<strong>en</strong>tación <strong>de</strong> g<strong>en</strong>omas usando<br />
FCGR, se obtuvieron firmas g<strong>en</strong>éticas, para la región<br />
<strong>de</strong>l cromosoma 11 <strong>de</strong> la secu<strong>en</strong>cia Human Beta Globin<br />
(HUMHBB), <strong>de</strong> este trabajo se toma <strong>en</strong> cu<strong>en</strong>ta la i<strong>de</strong>a<br />
propuesta como Preguntas Abiertas: . Es posible aplicar el<br />
algoritmo <strong>de</strong> CGR <strong>en</strong> codones (regiones codificantes <strong>de</strong><br />
proteínas)o a los aminoácidos que estos codifican...”<br />
En [4] se realizaron las firmas g<strong>en</strong>éticas <strong>de</strong> siete especies<br />
usando FCGR, luego se aplico un analisis <strong>de</strong> compon<strong>en</strong>tes<br />
principales (PCA, Principal Compon<strong>en</strong>t Analysis)<br />
y posteriorm<strong>en</strong>te se estableció la distancia que había <strong>en</strong>tre<br />
cada firma, <strong>de</strong>terminando así similitu<strong>de</strong>s filog<strong>en</strong>éticas<br />
<strong>en</strong>tre las especies analizadas.<br />
4. Chaos Game Repres<strong>en</strong>tation of<br />
Frequ<strong>en</strong>cies - FCGR<br />
Las secu<strong>en</strong>cias g<strong>en</strong>ómicas están <strong>en</strong> un constante estado<br />
<strong>de</strong> variación <strong>de</strong>bido a procesos, tales como la transposición,<br />
transformación, translocation y recombinación.<br />
(Karlin et al, 1998; Casj<strong>en</strong>s,1998 )<br />
Figura 1: Configuración <strong>de</strong> frecu<strong>en</strong>cias (columna izquierda)<br />
y firma g<strong>en</strong>ética (columna <strong>de</strong>recha) para tamaños <strong>de</strong><br />
oliginucleótidos (a) <strong>de</strong> longitud 1, (b) <strong>de</strong> longitud 2, y (c)<br />
<strong>de</strong> longitud 3. Para las firmas g<strong>en</strong>éticas fue usado el g<strong>en</strong>oma<br />
completo <strong>de</strong> Archaeglobus Fulgidus.<br />
Básicam<strong>en</strong>te, todo el conjunto <strong>de</strong> frecu<strong>en</strong>cias <strong>de</strong><br />
oligonucleótidos, <strong>en</strong>contrados <strong>en</strong> una secu<strong>en</strong>cia g<strong>en</strong>ómica<br />
dada, pued<strong>en</strong> ser mostrados <strong>en</strong> la forma <strong>de</strong> una sola<br />
imag<strong>en</strong> <strong>en</strong> la cual cada pixel está asociado a una cad<strong>en</strong>a<br />
<strong>de</strong> oligonucleótidos específica. Las frecu<strong>en</strong>cias <strong>en</strong>contradas<br />
<strong>en</strong> una secu<strong>en</strong>cia, son mostradas <strong>en</strong> una imag<strong>en</strong><br />
cuadrada y la posición <strong>de</strong> cada secu<strong>en</strong>cia <strong>de</strong> oligonucleótidos<br />
es escogida <strong>de</strong> acuerdo a un procedimi<strong>en</strong>to recursivo.<br />
Es por eso que la imag<strong>en</strong> es dividida <strong>en</strong> cuatro<br />
cuadrantes <strong>en</strong> las cuales, las secu<strong>en</strong>cias que terminan <strong>en</strong><br />
una base apropiada son recolectadas.<br />
En FCGR la imag<strong>en</strong> es divida <strong>en</strong> 4 n cuadrados, don<strong>de</strong> n<br />
es la longitud <strong>de</strong> los oligonucleótidos a repres<strong>en</strong>tar. Para<br />
cada oligonucleótido un FCGR <strong>de</strong>be ser g<strong>en</strong>erado. En la<br />
figura 1 obsérvese tres ejemplos <strong>de</strong> configuración <strong>de</strong> frecu<strong>en</strong>cias<br />
<strong>de</strong> oligonucleótidos. La firma g<strong>en</strong>ética obt<strong>en</strong>ida<br />
En la Figura 1(a) correspon<strong>de</strong> simplem<strong>en</strong>te a la frecu<strong>en</strong>cia<br />
absoluta <strong>de</strong> los nucleótidos A, C, G e T. Es importante<br />
<strong>de</strong>stacar que, la frecu<strong>en</strong>cia <strong>de</strong> oligonucleótidos es repres<strong>en</strong>tada<br />
por una escala <strong>de</strong> grises, si<strong>en</strong>do que la mayor<br />
probabilidad esta repres<strong>en</strong>tada por el color negro. Entretanto,<br />
la firma g<strong>en</strong>ética para tamaño <strong>de</strong> oligonucleótido<br />
2, mostrada <strong>en</strong> la figura 1(b), las frecu<strong>en</strong>cias consi<strong>de</strong>radas<br />
serán las correspondi<strong>en</strong>tes a la probabilidad <strong>de</strong> <strong>en</strong>contrar<br />
las sigui<strong>en</strong>tes palabras <strong>en</strong> el g<strong>en</strong>oma: AA, CA, GA, TA,<br />
AC, CC, GC, TC, AG, CG, GG, TG, AT, CT, GT, y TT.<br />
En este contexto, cuando lo que se busca es repres<strong>en</strong>tar<br />
tetranucleótidos <strong>en</strong> una imag<strong>en</strong> FCGR, un total <strong>de</strong> 4 4<br />
(256) pequeños cuadrados formarán la imag<strong>en</strong> completa;<br />
cada pequeño cuadrado correspon<strong>de</strong> a un tetranucleótido,<br />
como se ve <strong>en</strong> la figura 2.<br />
En [4] nos dice; usando CGR, se observa que las subse-
FIRMAS GENÉTICAS EN SECUENCIAS DE <strong>ADN</strong> 3<br />
Figura 2: FCGR para Archaeglobus Fulgidus.<br />
cu<strong>en</strong>cias <strong>de</strong> un g<strong>en</strong>oma, muestran las principales características<br />
<strong>de</strong> todo el g<strong>en</strong>oma, comprobando así la vali<strong>de</strong>z<br />
<strong>de</strong> la firma g<strong>en</strong>ómica.<br />
La firma g<strong>en</strong>ética es especie-específica, según [11]. El<br />
estudio <strong>de</strong> oligonucleótidos (o palabras) <strong>en</strong>contrados <strong>en</strong><br />
g<strong>en</strong>omas <strong>de</strong>bería ayudar a <strong>de</strong>tectar factores <strong>de</strong> especificidad.<br />
El uso <strong>de</strong> fragm<strong>en</strong>tos <strong>de</strong> mediano tamaño (5 a 10 kb)<br />
permite una casi perfecta clasificación y pue<strong>de</strong> incluso ser<br />
usada para difer<strong>en</strong>ciar especies muy similares.<br />
Así como <strong>en</strong> [3] se afirma que, la firma g<strong>en</strong>ética expresa<br />
el uso <strong>de</strong> pequeñas cad<strong>en</strong>as <strong>de</strong> oligonucleótidos <strong>en</strong><br />
una secu<strong>en</strong>cia. Esta se pue<strong>de</strong> mostrar como una imag<strong>en</strong>,<br />
don<strong>de</strong> cada cuadrado repres<strong>en</strong>ta la frecu<strong>en</strong>cia <strong>de</strong> una palabra<br />
dada. En ese estudio, el g<strong>en</strong>oma Bacillus subtitlis es<br />
escaneado a través <strong>de</strong> v<strong>en</strong>tanas <strong>de</strong> 3000 nucleótidos (firmas<br />
locales). <strong>Firmas</strong> <strong>de</strong> v<strong>en</strong>tanas sucesivas son mostradas<br />
como líneas verticales consecutivas. La firma g<strong>en</strong>ómica<br />
(con ligeras variaciones) es observable <strong>en</strong> muchas <strong>de</strong> las<br />
v<strong>en</strong>tanas, como <strong>en</strong> la figura 3. Des<strong>de</strong> que una figura es<br />
observable <strong>en</strong> todas las especies, la invarianza <strong>de</strong> la firma<br />
a lo largo <strong>de</strong>l g<strong>en</strong>oma lleva a un estilo especie-específico.<br />
5. Conjuntos <strong>de</strong> datos<br />
Para validar nuestro trabajo consi<strong>de</strong>raremos datos<br />
correspondi<strong>en</strong>tes 21 especies, obt<strong>en</strong>idas <strong>de</strong>l repositorio<br />
NCBI-G<strong>en</strong>Bank, cuya taxonomía esta <strong>de</strong>tallada <strong>en</strong> la tabla<br />
1 2 :<br />
De todas las especies consi<strong>de</strong>radas, fueron creados 4<br />
conjuntos <strong>de</strong> prueba para nuestros experim<strong>en</strong>tos <strong>de</strong> firmas<br />
g<strong>en</strong>éticas:<br />
1. G<strong>en</strong>oma Completo para cada especie.<br />
2. 50 subsecu<strong>en</strong>cias <strong>de</strong> tamaño 100 000 para cada especie.<br />
Si<strong>en</strong>do que fueron aleatoriam<strong>en</strong>te extraidas<br />
1000 cad<strong>en</strong>as <strong>de</strong> tamaño 100.<br />
2 Taxonomía obt<strong>en</strong>ida <strong>de</strong> NCBI Taxonomy Database:<br />
http://www.ncbi.nlm.nih.gov/Taxonomy/<br />
Figura 3: Firma g<strong>en</strong>ética aplicando FCGR <strong>de</strong> Bacillus subtitlis<br />
cada 3000 nucleótidos.<br />
Especie Reino G<strong>en</strong>ero Tamaño<br />
A. fulgidus Archaea Archaeoglobus 2.158 Kb<br />
B. burgdorferi Bacteria Borrelia 31 Kb<br />
C. acetobutylicum Bactera Clostridium 3.904 Kb<br />
V. cholerae Bacteria Vibrio 4.711 Kb<br />
E. coli Bacteria Escherichia 4.596 Kb<br />
A. fumigatus Fungi Aspergillus 4.873 Kb<br />
C. albicans Fungi Candida 941 Kb<br />
E. cuniculi Fungi Encephalitozoon 209 Kb<br />
E. gossypii Fungi Eremothecium 686 Kb<br />
M. jannaschii Bacteria Marinobacterium 1.659 Kb<br />
M. leprae Bacteria Mycobacterium 3.238 Kb<br />
T. maritima Bacteria Thermotoga 1.844 Kb<br />
D. melanogaster Animalia Drosophila 1.256 Kb<br />
M. tuberculosis Bacteria Mycobacterium 4.363 Kb<br />
T. pallidum Bacteria Treponema 1.128 Kb<br />
S. pneumoniae Bacteria Streptococcus 2.020 Kb<br />
D. radiodurans Bacteria Deinococcus 2.624 Kb<br />
S. solfataricus Archaea Sulfolobus 2.964 Kb<br />
S. sp PCC6803 Bacteria Synechocystis 3.540 Kb<br />
A. tumefaci<strong>en</strong>s Bacteria Agrobacterium 2.815 Kb<br />
B. subtilis Bacteria Bacillus 4.175 Kb<br />
Cuadro 1: Características <strong>de</strong> las especies consi<strong>de</strong>radas <strong>en</strong><br />
nuestro trabajo.<br />
3. Subsecu<strong>en</strong>cia <strong>de</strong> tamaño 100 000 extraída <strong>de</strong> las <strong>Regiones</strong><br />
Codificantes, <strong>de</strong> cada especie.<br />
4. Subsecu<strong>en</strong>cia <strong>de</strong> tamaño 100 000 extraída <strong>de</strong> las <strong>Regiones</strong><br />
No Codificantes, <strong>de</strong> cada especie.<br />
Cabe <strong>de</strong>stacar que:<br />
Las firmas g<strong>en</strong>éticas fueron obt<strong>en</strong>idas a través <strong>de</strong><br />
la técnica FCGR para oligonucleótidos <strong>de</strong> tamaño 8,<br />
obt<strong>en</strong>i<strong>en</strong>do <strong>en</strong>tonces imág<strong>en</strong>es <strong>de</strong> 2 8 X2 8 pixels, <strong>en</strong>
FIRMAS GENÉTICAS EN SECUENCIAS DE <strong>ADN</strong> 4<br />
un total <strong>de</strong> 65 536 bases.<br />
Las <strong>Regiones</strong> Codificantes y No Codificantes <strong>de</strong> los<br />
g<strong>en</strong>omas, fueron extraídas usando el método basado<br />
la MMT (Transformada Modificada <strong>de</strong> Morlet) <strong>de</strong>scrito<br />
<strong>en</strong> [9], compuesto por tres pasos:<br />
• Mapeami<strong>en</strong>to numérico <strong>de</strong> una secu<strong>en</strong>cia <strong>de</strong> <strong>ADN</strong><br />
a cuatro secu<strong>en</strong>cias binarias.<br />
• Aplicación <strong>de</strong> la MMT a cada secu<strong>en</strong>cia binaria.<br />
• Proyección <strong>de</strong> las secu<strong>en</strong>cias espectrales sobre el<br />
eje <strong>de</strong> las posiciones.<br />
• Extracción <strong>de</strong> 100 000 bases correspondi<strong>en</strong>tes a<br />
regiones cuyos coefici<strong>en</strong>tes <strong>de</strong> proyección fueron<br />
mayores al 80 % <strong>de</strong>l valor <strong>de</strong> proyección más<br />
gran<strong>de</strong> obt<strong>en</strong>ido <strong>en</strong> el análisis.<br />
6. Técnicas <strong>de</strong> agrupami<strong>en</strong>to<br />
Según [6], Clustering es una clasificación <strong>de</strong> patrones no<br />
supervisada <strong>en</strong> grupos (clusters). Exist<strong>en</strong> difer<strong>en</strong>tes técnicas<br />
<strong>de</strong> agrupami<strong>en</strong>to <strong>de</strong> datos, <strong>en</strong>tre ellas t<strong>en</strong>emos:<br />
1. Least Square Projection(LSP) : [5]<br />
Dado un conjunto <strong>de</strong> puntos S = {p 1 , ...., p n } <strong>en</strong> R m ,<br />
el algoritmo LSP ti<strong>en</strong>e como objetivo repres<strong>en</strong>tar los<br />
puntos <strong>de</strong> S es un espacio <strong>de</strong> m<strong>en</strong>or dim<strong>en</strong>sion R d ,<br />
d < m, <strong>de</strong> manera que se preserve la relación <strong>de</strong><br />
vecindad <strong>en</strong>tre los puntos tanto como sea posible.<br />
Dos pasos principales se realizan <strong>en</strong> el proceso <strong>de</strong><br />
proyección:<br />
Primero un subconjunto <strong>de</strong> puntos <strong>en</strong> S, llamado<br />
“puntos control” son proyectados <strong>en</strong> R d por MDS<br />
(Multidim<strong>en</strong>sional Scaling).<br />
Haci<strong>en</strong>do uso <strong>de</strong> la relación <strong>de</strong> vecindad <strong>de</strong> los<br />
puntos <strong>en</strong> R m y las coord<strong>en</strong>adas cartesianas <strong>de</strong> los<br />
puntos <strong>de</strong> control <strong>en</strong> R d , es posible construir un<br />
sistema linear cuyas soluciones están <strong>en</strong> las coord<strong>en</strong>adas<br />
cartesianas <strong>de</strong> los puntos p i <strong>en</strong> R d<br />
2. K-means : [6]<br />
Es el algoritmo más simple y más usado, aplicando<br />
un criterio <strong>de</strong> errores cuadrados [McQue<strong>en</strong> 1967].<br />
Empieza con una partición aleatoria inicial y se<br />
manti<strong>en</strong>e reasignando los patrones a los clusters<br />
basado <strong>en</strong> la similitud <strong>en</strong>tre patrones y los c<strong>en</strong>tros<br />
<strong>de</strong> los clusters hasta que el criterio <strong>de</strong> converg<strong>en</strong>cia<br />
es alcanzado. Es un algoritmo popular por su fácil<br />
implem<strong>en</strong>tación y su complejidad es O(n), don<strong>de</strong> n<br />
es el numero <strong>de</strong> patrones. El mayor problema <strong>de</strong> este<br />
algoritmo es que es s<strong>en</strong>sible a la selección <strong>de</strong> la partición<br />
inicial y pue<strong>de</strong> converger a un mínimo local si<br />
es que la partición inicial no fue escogida apropiadam<strong>en</strong>te.<br />
3. Principal Compon<strong>en</strong>t Analysis (PCA) :<br />
En la literatura <strong>de</strong> agrupami<strong>en</strong>to, PCA es a veces<br />
aplicada para reducir la dim<strong>en</strong>sionalidad <strong>de</strong>l conjunto<br />
<strong>de</strong> datos antes <strong>de</strong> agrupar. La i<strong>de</strong>a <strong>de</strong> usar PCA<br />
antes <strong>de</strong> agrupar, es que PCA pue<strong>de</strong> extraer la estructura<br />
<strong>de</strong>l cluster <strong>en</strong> el conjunto <strong>de</strong> datos.[Jollife et al.<br />
1980]. Según las conclusiones <strong>de</strong> [8]: “La calidad <strong>de</strong><br />
los resultados <strong>de</strong> agrupami<strong>en</strong>to <strong>de</strong>spués <strong>de</strong> aplicar<br />
PCA no es necesariam<strong>en</strong>te más alta que con sólo los<br />
datos originales.”<br />
4. Self Organizing Map (SOM) : [12]<br />
<strong>Un</strong>a SOM consiste usualm<strong>en</strong>te <strong>de</strong> un red <strong>de</strong><br />
unida<strong>de</strong>s, <strong>de</strong> 2 dim<strong>en</strong>siones. Cada unidad i, esta repres<strong>en</strong>tada<br />
por un vector prototipo m i = [m i1 , ....m id ],<br />
don<strong>de</strong> d es la dim<strong>en</strong>sión <strong>de</strong>l vector <strong>de</strong> <strong>en</strong>trada.<br />
Las unida<strong>de</strong>s están conectadas a sus adyac<strong>en</strong>tes a<br />
través <strong>de</strong> una relación <strong>de</strong> vecindad. Durante el <strong>en</strong>tr<strong>en</strong>ami<strong>en</strong>to,<br />
la SOM forma una red elástica que se<br />
pliega <strong>en</strong> la nube formada por los datos <strong>de</strong> <strong>en</strong>trada.<br />
7. Resultados y Discusión<br />
Las pruebas fueron <strong>de</strong>sarrolladas y probadas <strong>en</strong> una<br />
computador conv<strong>en</strong>cional: P<strong>en</strong>tium IV, con procesador<br />
AMD Turion 64X2 <strong>de</strong> 1.81GHz y 1.93GB <strong>de</strong> RAM.<br />
A seguir mostramos el cálculo <strong>de</strong> firmas g<strong>en</strong>éticas y su<br />
posterior clasificación usando Least Square Projection <strong>de</strong><br />
la herrami<strong>en</strong>ta PEx, anteriorm<strong>en</strong>te m<strong>en</strong>cionada, con los<br />
sigui<strong>en</strong>te parámetros:<br />
Técnica <strong>de</strong> Proyección : Least Square Projection.<br />
Tipo <strong>de</strong> Distancia : Euclidiana.<br />
Algoritmo <strong>de</strong> Clustering : K-means.<br />
Número <strong>de</strong> Vecinos : 2.<br />
Los casos a tomar <strong>en</strong> cu<strong>en</strong>ta son los sigui<strong>en</strong>tes, tal como<br />
se mostró <strong>en</strong> la sección 5, don<strong>de</strong> se <strong>de</strong>scribe como se<br />
formó cada uno <strong>de</strong> los archivos <strong>de</strong> prueba :<br />
(i) <strong>Un</strong>a muestra por cada especie.<br />
(ii) 50 muestras <strong>de</strong> tamaño 100 000, por cada especie.<br />
(iii) <strong>Un</strong>a muestra <strong>de</strong> tamaño 100 000 obt<strong>en</strong>ida <strong>de</strong> las regiones<br />
codificantes, por cada especie.<br />
(iv) <strong>Un</strong>a muestra <strong>de</strong> tamaño 100 000 obt<strong>en</strong>ida <strong>de</strong> las regiones<br />
no codificantes, por cada especie.<br />
De forma ilustrativa, mostramos resultados para los<br />
organismos A. fulgidus, E. coli y V. cholerae. Los firmas<br />
g<strong>en</strong>éticas obt<strong>en</strong>idas, aplicando FCGR, para cada uno <strong>de</strong><br />
los casos anteriorm<strong>en</strong>te m<strong>en</strong>cionados, se muestran <strong>en</strong> las<br />
figuras 4, 5 y 6. En estas imág<strong>en</strong>es se pue<strong>de</strong> apreciar que la<br />
firma g<strong>en</strong>ética para cada uno <strong>de</strong> los casos es idéntica, pudi<strong>en</strong>do<br />
variar <strong>en</strong> los valores <strong>de</strong> las frecu<strong>en</strong>cias <strong>de</strong> acuerdo<br />
al número <strong>de</strong> nucleótidos utilizados para realizar la firma.<br />
En las figuras 7 y 8, se muestran los resultados <strong>de</strong><br />
aplicar Least Square Projection a los archivos <strong>de</strong> prueba
FIRMAS GENÉTICAS EN SECUENCIAS DE <strong>ADN</strong> 5<br />
(a) A. fulgidus-G<strong>en</strong>oma (b) A. fulgidus-<br />
Completo<br />
Subsecu<strong>en</strong>cias<br />
(c) A. fulgidus-Exones<br />
(d) A. fulgidus-Intrones<br />
Figura 4: A. fulgidus - <strong>Firmas</strong> G<strong>en</strong>éticas <strong>de</strong> tamaño 2 8 obt<strong>en</strong>idas para cada uno <strong>de</strong> los casos [(i),(ii),(iii),(iv)].<br />
(a) E. coli-G<strong>en</strong>oma Completo<br />
(b) E. coli-Subsecu<strong>en</strong>cias (c) E. coli-Exones (d) E. coli-Intrones<br />
Figura 5: E. coli - <strong>Firmas</strong> G<strong>en</strong>éticas <strong>de</strong> tamaño 2 8 obt<strong>en</strong>idas para cada uno <strong>de</strong> los casos [(i),(ii),(iii),(iv)].<br />
(a) V. cholerae-G<strong>en</strong>oma (b) V. cholerae-<br />
Completo<br />
Subsecu<strong>en</strong>cias<br />
(c) V. cholerae-Exones<br />
(d) V. cholerae-Intrones<br />
Figura 6: V. cholerae - <strong>Firmas</strong> G<strong>en</strong>éticas <strong>de</strong> tamaño 2 8 obt<strong>en</strong>idas para cada uno <strong>de</strong> los casos [(i),(ii),(iii),(iv)].<br />
para los casos (i),(ii),(iii) y (iv), y se pue<strong>de</strong> observar que<br />
<strong>en</strong> todos los casos se realiza un clustering apropiado, reconoci<strong>en</strong>do<br />
siempre las 21 especies, a<strong>de</strong>más especies con<br />
proximidad filog<strong>en</strong>ética se <strong>en</strong>cu<strong>en</strong>tran más cercanas.<br />
Por lo tanto, con nuestros experim<strong>en</strong>tos realizados,<br />
acreditamos fuertem<strong>en</strong>te que las firmas g<strong>en</strong>éticas no<br />
ti<strong>en</strong><strong>en</strong> influ<strong>en</strong>cias <strong>de</strong> las regiones codificantes ni <strong>Regiones</strong><br />
no Codificantes, las especies se pued<strong>en</strong> repres<strong>en</strong>tar con<br />
tan sólo una subsecu<strong>en</strong>cia <strong>de</strong>l g<strong>en</strong>oma completo, quedando<br />
abierta la posibilidad <strong>de</strong> evaluar el tamaño aproximado<br />
<strong>de</strong> oligonucleótidos para repres<strong>en</strong>tar <strong>de</strong> una manera<br />
a<strong>de</strong>cuada los g<strong>en</strong>omas.<br />
Este trabajo, correspondi<strong>en</strong>te al tema <strong>de</strong> tesis <strong>de</strong>l<br />
primer autor, aún continua <strong>en</strong> estudio, si<strong>en</strong>do que una<br />
<strong>de</strong> las tareas a realizar <strong>en</strong> un futuro inmediato es la<br />
clasificación <strong>de</strong> secu<strong>en</strong>cias g<strong>en</strong>ómicas, usando firmas<br />
g<strong>en</strong>éticas. En ese s<strong>en</strong>tido, usamos algunas técnicas<br />
<strong>de</strong>scritas <strong>en</strong> la sección 6, dando un mayor énfasis <strong>en</strong> el<br />
análisis <strong>de</strong> compon<strong>en</strong>tes principales y LSP.<br />
En la figura 9, se pue<strong>de</strong> apreciar los resultados<br />
obt<strong>en</strong>idos para PCA y LSP (usando la herrami<strong>en</strong>ta PEx)<br />
con archivos que cont<strong>en</strong>ían datos <strong>de</strong> 3 especies [10] 3 y<br />
SOM (usando Neural Network Toolbox <strong>de</strong> Matlab) con<br />
archivos que cont<strong>en</strong>ían 5 especies 4<br />
3 PEx es una herrami<strong>en</strong>ta <strong>de</strong> visualización hecha <strong>en</strong> JAVA que pue<strong>de</strong><br />
ser usada para crear y explorar repres<strong>en</strong>taciones visuales <strong>de</strong> docum<strong>en</strong>tos<br />
y también pue<strong>de</strong> ser usado para analizar otros tipos <strong>de</strong> datos multidim<strong>en</strong>sionales.<br />
http://infoserver.lcad.icmc.usp.br/infovis2/PEx<br />
4 Neural Network Toolbox : http://www.mathworks.com/products/neuralnet/
FIRMAS GENÉTICAS EN SECUENCIAS DE <strong>ADN</strong> 6<br />
(a) Least Square Projection - G<strong>en</strong>oma Completo<br />
(b) Least Square Projection - Subsecu<strong>en</strong>cias<br />
Figura 7: Clustering <strong>de</strong> <strong>Firmas</strong> G<strong>en</strong>éticas <strong>de</strong> tamaño 2 8 para los casos [(i) y (ii)].<br />
(a) Least Square Projection - Exones<br />
(b) Least Square Projection - Intrones<br />
Figura 8: Clustering <strong>de</strong> <strong>Firmas</strong> G<strong>en</strong>éticas <strong>de</strong> tamaño 2 8 para los casos [(iii) y (iv)].
FIRMAS GENÉTICAS EN SECUENCIAS DE <strong>ADN</strong> 7<br />
(a) Least Square Projection (b) Principal Compon<strong>en</strong>t Analysis (c) Self Organizing Map<br />
Figura 9: Resultados para 3 técnicas <strong>de</strong> agrupami<strong>en</strong>to.<br />
8. Conclusiones<br />
Comprobamos que aplicando FCGR a un g<strong>en</strong>oma y<br />
sin la necesidad <strong>de</strong> aplicar PCA a los datos antes <strong>de</strong><br />
realizar la clasificación, se forman 21 grupos difer<strong>en</strong>tes,<br />
correspondi<strong>en</strong>tes a las especies utilizadas <strong>en</strong><br />
las pruebas.<br />
También se comprobó que las firmas g<strong>en</strong>éticas <strong>de</strong><br />
subsecu<strong>en</strong>cias <strong>de</strong> un g<strong>en</strong>oma, son similares, permiti<strong>en</strong>do<br />
así la reducción <strong>de</strong> memoria y tiempo <strong>en</strong> el<br />
análisis <strong>de</strong> g<strong>en</strong>omas.<br />
Así como se pudo apreciar <strong>en</strong> los resultados,<br />
preparatoriam<strong>en</strong>te confirmamos el concepto <strong>de</strong> las<br />
firmas g<strong>en</strong>éticas: “especie-especifica” pues siempre las<br />
especies se mostraban separadas a una distancia estadísticam<strong>en</strong>te<br />
razonable, unas <strong>de</strong> otras.<br />
Se pue<strong>de</strong> concluir que especies que mostraron firmas<br />
g<strong>en</strong>éticas similares, fueron visualizadas <strong>en</strong> la imag<strong>en</strong><br />
mucho más juntas que las <strong>de</strong>más.<br />
A partir <strong>de</strong> la imág<strong>en</strong>es obt<strong>en</strong>idas <strong>en</strong> los resultados,<br />
se ve que las firmas g<strong>en</strong>éticas repres<strong>en</strong>tan a las especies<br />
con tan sólo una subsecu<strong>en</strong>cia <strong>de</strong>l g<strong>en</strong>oma, sin<br />
importar si pert<strong>en</strong>ec<strong>en</strong> a las regiones codificantes o<br />
no codificantes.<br />
<strong>Un</strong>a suposición a ser comprobada es el correspondi<strong>en</strong>te<br />
al tamaño <strong>de</strong> oligonucleótidos a evaluar <strong>en</strong><br />
el FCGR para obt<strong>en</strong>er la firma g<strong>en</strong>ética, así como<br />
también la longitud <strong>de</strong> la subsecu<strong>en</strong>cia <strong>de</strong>l g<strong>en</strong>oma<br />
a evaluar; <strong>de</strong> manera que se repres<strong>en</strong>te a<strong>de</strong>cuadam<strong>en</strong>te<br />
a las especies.<br />
[3] A. Giron et al Deschavanne, P. G<strong>en</strong>omic signature: is preserved<br />
in short dna fragm<strong>en</strong>ts. BIBE 2000 IEEE international<br />
Symposium on bioinformatics biomedical <strong>en</strong>g<strong>en</strong>eering ,<br />
Washintown USA, pages 161–167, november 2000.<br />
[4] Vilain Fagot Fertil Deschavanne, Giron. G<strong>en</strong>omic signature:characterization<br />
and classification of species assessed<br />
by chaos game repres<strong>en</strong>tation of sequ<strong>en</strong>ces.<br />
[5] Rosane Minghim Fernando V. Paulovich, Luis Gustavo<br />
Nonato and Haim Levkowitz. Least square projection:<br />
A fast high-precision multidim<strong>en</strong>sional projection technique<br />
and its application to docum<strong>en</strong>t mapping. IEEE<br />
TRANSACTIONS ON VISUALIZATION AND COMPUT-<br />
ER GRAPHICS, 14(3):565–566, MAY/JUNE 2008.<br />
[6] A. K. Jain, M. N. Murty, and P. J. Flynn. Data clustering: a<br />
review. ACM Comput. Surv., 31(3):264–323, 1999.<br />
[7] H.J. Jeffrey. Chaos game repres<strong>en</strong>tation of g<strong>en</strong>e structure.<br />
Nucleic Acids Research., (18):2163–2170, 1990.<br />
[8] W.L. Ruzzo K.Y. Yeung. Principal compon<strong>en</strong>t analysis for<br />
clustering g<strong>en</strong>e expression data. Bioinformatics, 17(9):763–<br />
774, Setiembre 2001.<br />
[9] J. P. M<strong>en</strong>a-Chalco. Id<strong>en</strong>tificação <strong>de</strong> regiões codificantes <strong>de</strong><br />
proteína através da transformada modificada <strong>de</strong> Morlet.<br />
Master’s thesis, IME-USP, October 2005.<br />
[10] Fernando V. Paulovich, Maria Cristina F. Oliveira, and<br />
Rosane Minghim. The projection explorer: A flexible<br />
tool for projection-based multidim<strong>en</strong>sional visualization.<br />
In Proceedings of the XX Brazilian Symposium on Computer<br />
Graphics and Image Processing - SIBGRAPI, pages 27–36, Belo<br />
Horizonte, Brazil, 2007. IEEE CS Press.<br />
[11] Patrick DESCHAVANNE Sylvain LESPINATS,<br />
Alain GIRON and Bernard FERTIL. Dna sequ<strong>en</strong>ces<br />
share a common syntax.<br />
[12] J. Vesanto and E. Alhoniemi. Clustering of the selforganizing<br />
map. Neural Networks, IEEE Transactions on,<br />
11(3):586–600, May 2000.<br />
[13] Shiva Singh Yingwei Wang, Kathle<strong>en</strong> Hill and Lila Kari.<br />
The spectrum of g<strong>en</strong>omic signatures: from dinucleoti<strong>de</strong>s<br />
to chaos game repres<strong>en</strong>tation.<br />
Refer<strong>en</strong>cias<br />
[1] Maretzek Noble Fletcher Almeida, Carric. Analysis of g<strong>en</strong>omic<br />
sequ<strong>en</strong>ces by chaos game repres<strong>en</strong>tation. 2001.<br />
[2] A. Morris Ania L. Manson, Emma Jones. Lo es<strong>en</strong>cial <strong>en</strong> celula<br />
y g<strong>en</strong>etica, volume of . , , edition, . .