20.01.2015 Views

Firmas Gen´eticas en secuencias de ADN: Un an´alisis en Regiones ...

Firmas Gen´eticas en secuencias de ADN: Un an´alisis en Regiones ...

Firmas Gen´eticas en secuencias de ADN: Un an´alisis en Regiones ...

SHOW MORE
SHOW LESS

Create successful ePaper yourself

Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.

II SIMPOSIO PERUANO DE COMPUTACIÓN GRÁFICA Y PROCESAMIENTO DE IMÁGENES, SCGI-2008 1<br />

<strong>Firmas</strong> G<strong>en</strong>éticas <strong>en</strong> secu<strong>en</strong>cias <strong>de</strong> <strong>ADN</strong>:<br />

<strong>Un</strong> análisis <strong>en</strong> <strong>Regiones</strong> Codificantes y no<br />

Codificantes <strong>de</strong> Proteínas<br />

Rosario Medina Rodriguez, Jesus M<strong>en</strong>a-Chalco<br />

Resum<strong>en</strong> — La repres<strong>en</strong>tación <strong>de</strong> g<strong>en</strong>omas completos, compuestos por millones <strong>de</strong> nucleótidos, usando estructuras<br />

g<strong>en</strong>ómicas o compon<strong>en</strong>tes m<strong>en</strong>ores ha sido objeto <strong>de</strong> at<strong>en</strong>ción <strong>en</strong> los últimos años pues se acredita fuertem<strong>en</strong>te que<br />

toda especie biológica exist<strong>en</strong>te pue<strong>de</strong> ser repres<strong>en</strong>tada por una “Firma G<strong>en</strong>ética”. Po<strong>de</strong>mos interpretar la d<strong>en</strong>ominada<br />

firma g<strong>en</strong>ética como un conjunto <strong>de</strong> medidas, <strong>de</strong>p<strong>en</strong>di<strong>en</strong>tes <strong>de</strong> resolución o granularidad, que intrínsecam<strong>en</strong>te<br />

repres<strong>en</strong>ta la organización primaria <strong>de</strong> una secu<strong>en</strong>cia <strong>de</strong> <strong>ADN</strong> <strong>de</strong> un organismo. Hoy <strong>en</strong> día, <strong>en</strong> el área <strong>de</strong> Bioinformática<br />

a nivel <strong>de</strong> nucleótidos, la prioridad es obt<strong>en</strong>er la mayor cantidad <strong>de</strong> información posible <strong>de</strong> cada g<strong>en</strong>oma<br />

secu<strong>en</strong>ciado, con la finalidad <strong>de</strong> conseguir un mejor <strong>en</strong>t<strong>en</strong>dimi<strong>en</strong>to <strong>de</strong> la taxonomía y composición g<strong>en</strong>ómica <strong>de</strong> los<br />

organismos. En el pres<strong>en</strong>te artículo, correspondi<strong>en</strong>te al tema <strong>de</strong> tesis <strong>de</strong> pre-grado aún <strong>en</strong> <strong>de</strong>sarrollo, se <strong>de</strong>scribe una<br />

breve introducción a las firmas g<strong>en</strong>éticas usando Chaos Game Repres<strong>en</strong>tation of Frequ<strong>en</strong>cies (FCGR) y como parte inédito<br />

se evalúa la influ<strong>en</strong>cia que ti<strong>en</strong><strong>en</strong> las regiones codificantes y no codificantes <strong>de</strong> proteínas <strong>en</strong> la repres<strong>en</strong>tación <strong>de</strong><br />

g<strong>en</strong>omas, realizada <strong>en</strong> este caso, a través <strong>de</strong> firmas g<strong>en</strong>éticas.<br />

Términos <strong>de</strong> in<strong>de</strong>xación — <strong>Regiones</strong> Codificantes, <strong>Regiones</strong> no Codificantes, <strong>Firmas</strong> G<strong>en</strong>éticas, FCGR.<br />

1. Introducción<br />

La reci<strong>en</strong>te disponibilidad <strong>de</strong> largas secu<strong>en</strong>cias<br />

g<strong>en</strong>ómicas abr<strong>en</strong> un nuevo campo <strong>de</strong> investigación<br />

<strong>de</strong>dicado al análisis <strong>de</strong> su estructura. (Beutleretal.1989;Woese,Kandler,y<br />

Wheelis 1990; Charlesworth<br />

1994; Sharpand Matassi 1994;Doolittle 1997; Maleyand<br />

Marshall 1998).<br />

Actualm<strong>en</strong>te existe una gran cantidad <strong>de</strong> organismos<br />

con secu<strong>en</strong>cias <strong>de</strong> <strong>ADN</strong> <strong>de</strong> g<strong>en</strong>omas completos conocidos<br />

y almac<strong>en</strong>ados <strong>en</strong> repositorios <strong>de</strong> datos g<strong>en</strong>éticos para su<br />

posterior análisis 1 .<br />

Los g<strong>en</strong>omas al estar conformados por millones <strong>de</strong> nucleótidos,<br />

hac<strong>en</strong> que los análisis sobre los mismos result<strong>en</strong><br />

complejos y a veces no realizables <strong>de</strong>bido a limitaciones<br />

computacionales (como <strong>de</strong> memoria y procesami<strong>en</strong>to).<br />

Por ese motivo <strong>en</strong> la comunidad <strong>de</strong> Bioinformática existe<br />

la preocupación <strong>de</strong> <strong>en</strong>contrar una forma <strong>de</strong> caracterización<br />

<strong>de</strong> g<strong>en</strong>omas que permita realizar una repres<strong>en</strong>tación<br />

<strong>de</strong> los mismos <strong>de</strong> manera que muestr<strong>en</strong> sus características<br />

principales (con una reducción <strong>en</strong> su dim<strong>en</strong>sionalidad).<br />

Así, una forma <strong>de</strong> caracterizar un g<strong>en</strong>oma es<br />

conocida como “firma g<strong>en</strong>ética”.<br />

El trabajo <strong>de</strong> tesis, aún <strong>en</strong> <strong>de</strong>sarrollo, se esta ori<strong>en</strong>tando<br />

al estudio inédito <strong>de</strong> la influ<strong>en</strong>cia <strong>de</strong> las regiones g<strong>en</strong>ómicas<br />

(regiones codificantes y regiones no codificantes) <strong>en</strong><br />

las firmas g<strong>en</strong>éticas, es <strong>de</strong>cir, que regiones conti<strong>en</strong><strong>en</strong> mayor<br />

cantidad <strong>de</strong> información relevante <strong>en</strong> la secu<strong>en</strong>cia <strong>de</strong><br />

Rosario Medina R. es estudiante <strong>de</strong> Quinto Año <strong>de</strong> la Escuela Profesional<br />

<strong>de</strong> Ing<strong>en</strong>iería <strong>de</strong> Sistemas <strong>de</strong> la <strong>Un</strong>iversidad Nacional <strong>de</strong> San<br />

Agustín, Arequipa. Perú. E-mail: rosario1316@gmail.com<br />

Jesus M<strong>en</strong>a-Chalco es estudiante <strong>de</strong> Doctorado <strong>de</strong> la <strong>Un</strong>iversidad<br />

<strong>de</strong> São Paulo (IME-USP). Brasil. E-mail: jm<strong>en</strong>a@vision.ime.usp.br<br />

1 <strong>Un</strong>o <strong>de</strong> los repositorios g<strong>en</strong>éticos ampliam<strong>en</strong>te conocido es el<br />

pert<strong>en</strong>eci<strong>en</strong>te al National C<strong>en</strong>ter for Biotechnology Information (NCBI):<br />

www.ncbi.nlm.nih.gov/<br />

<strong>ADN</strong>, para caracterizar al g<strong>en</strong>oma; permiti<strong>en</strong>do así reducir<br />

aun mas la dim<strong>en</strong>sionalidad y a la vez el costo <strong>de</strong><br />

almac<strong>en</strong>ami<strong>en</strong>to y análisis <strong>de</strong> las mismas, al usar sólo las<br />

regiones más importantes.<br />

El resto <strong>de</strong>l artículo esta organizado <strong>de</strong> la sigui<strong>en</strong>te<br />

manera: En la sección 2 son tratados algunos conceptos<br />

básicos sobre el trabajo <strong>de</strong> manera que sea <strong>de</strong> rápido <strong>en</strong>t<strong>en</strong>dimi<strong>en</strong>to.<br />

En la sección 3, se verán algunos trabajos<br />

previos que justifiqu<strong>en</strong> el pres<strong>en</strong>te. La técnica a usar para<br />

repres<strong>en</strong>tar los g<strong>en</strong>omas, será vista <strong>en</strong> la sección 4. El conjunto<br />

<strong>de</strong> datos usados <strong>en</strong> el trabajo esta <strong>de</strong>scrito <strong>en</strong> la sección<br />

5. Algunas técnicas <strong>de</strong> agrupami<strong>en</strong>to <strong>en</strong> la sección<br />

6. Finalm<strong>en</strong>te, <strong>en</strong> las secciones 7 y 8 son mostrados los<br />

resultados obt<strong>en</strong>idos, su apropiada disposición y conclusiones,<br />

respectivam<strong>en</strong>te.<br />

2. Conceptos Básicos<br />

2.1. <strong>Firmas</strong> G<strong>en</strong>éticas<br />

<strong>Un</strong>a firma g<strong>en</strong>ética esta asociada con un ord<strong>en</strong> particular<br />

o una longitud <strong>de</strong> subsecu<strong>en</strong>cia que repres<strong>en</strong>ta una<br />

medida <strong>de</strong> la resolución o granularidad <strong>en</strong> el análisis <strong>de</strong> la<br />

organización primaria <strong>de</strong> una secu<strong>en</strong>cia <strong>de</strong> <strong>ADN</strong>, según<br />

[13].<br />

2.2. <strong>Regiones</strong> Codificantes y No codificantes<br />

Cuando un nuevo organismo es secu<strong>en</strong>ciado se <strong>de</strong>sea<br />

obt<strong>en</strong>er toda la información posible <strong>de</strong> su g<strong>en</strong>oma, si<strong>en</strong>do<br />

un paso fundam<strong>en</strong>tal la id<strong>en</strong>tificación <strong>de</strong> g<strong>en</strong>es pres<strong>en</strong>tes<br />

<strong>en</strong> su estructura g<strong>en</strong>ómica. Esta id<strong>en</strong>tificación correspon<strong>de</strong><br />

a la <strong>de</strong>terminación <strong>de</strong> las regiones codificantes<br />

<strong>de</strong> proteínas (CDS, Coding Sequ<strong>en</strong>ces) [9].<br />

Paper ID (c) 2008 SCG<br />

Published by SCG


FIRMAS GENÉTICAS EN SECUENCIAS DE <strong>ADN</strong> 2<br />

La Región para la codificación <strong>de</strong> Proteínas (CDS), para<br />

organismos procariontes se consi<strong>de</strong>ra una única región,<br />

<strong>en</strong>tre tanto para organismos eucariontes es consi<strong>de</strong>rada<br />

una secu<strong>en</strong>cia alternada <strong>de</strong> exones/intrones separadas<br />

por regiones <strong>de</strong> corte y regiones aceptadoras.<br />

Se consi<strong>de</strong>ra a un exón como una región necesaria para<br />

la codificación <strong>de</strong> proteínas. De se mismo modo, se consi<strong>de</strong>ra<br />

a un intrón como una región no pres<strong>en</strong>te <strong>en</strong> la codificación,<br />

a m<strong>en</strong>udo ext<strong>en</strong>sas y con funciones aún <strong>de</strong>sconocidas<br />

[2].<br />

3. Trabajos Previos<br />

Entre las difer<strong>en</strong>tes formas <strong>de</strong> repres<strong>en</strong>tar secu<strong>en</strong>cias<br />

<strong>de</strong> <strong>ADN</strong>, t<strong>en</strong>emos:<br />

Chaos Game Repres<strong>en</strong>tation (CGR) fue propuesta como<br />

una repres<strong>en</strong>tación in<strong>de</strong>p<strong>en</strong>di<strong>en</strong>te <strong>de</strong> la escala<br />

para secu<strong>en</strong>cias g<strong>en</strong>ómicas por Jeffrey <strong>en</strong> 1990 [7].<br />

La técnica, formalm<strong>en</strong>te un mapa interactivo, pue<strong>de</strong><br />

remontarse aun mas atrás, a los fundam<strong>en</strong>tos <strong>de</strong><br />

la mecánica estadística, <strong>en</strong> particular a la teoría <strong>de</strong>l<br />

Caos (Bar-Yam, 1997).<br />

El espacio CGR es un sistema contínuo <strong>de</strong> refer<strong>en</strong>cia,<br />

don<strong>de</strong> todas las posibles secu<strong>en</strong>cias <strong>de</strong> cualquier longitud<br />

ti<strong>en</strong><strong>en</strong> una única posición. Consecu<strong>en</strong>tem<strong>en</strong>te<br />

toda posible sucesión <strong>de</strong> nucleótidos será codificada<br />

<strong>en</strong> un espacio continuo [1].<br />

Sin embargo <strong>en</strong> [4], se <strong>de</strong>sarrolla una versión<br />

<strong>de</strong>l método <strong>de</strong> CGR, [1] propuso el nombre FC-<br />

GR(matrices <strong>de</strong> frecu<strong>en</strong>cia extraídas <strong>de</strong> CGR) para<br />

nombrar esta modificación <strong>de</strong> Chaos Game Repres<strong>en</strong>tation,<br />

que permite la cuantificación <strong>de</strong> patrones observados<br />

y un procesami<strong>en</strong>to rápido <strong>de</strong> secu<strong>en</strong>cias<br />

muy largas.<br />

En [7] se propuso la repres<strong>en</strong>tación <strong>de</strong> g<strong>en</strong>omas usando<br />

FCGR, se obtuvieron firmas g<strong>en</strong>éticas, para la región<br />

<strong>de</strong>l cromosoma 11 <strong>de</strong> la secu<strong>en</strong>cia Human Beta Globin<br />

(HUMHBB), <strong>de</strong> este trabajo se toma <strong>en</strong> cu<strong>en</strong>ta la i<strong>de</strong>a<br />

propuesta como Preguntas Abiertas: . Es posible aplicar el<br />

algoritmo <strong>de</strong> CGR <strong>en</strong> codones (regiones codificantes <strong>de</strong><br />

proteínas)o a los aminoácidos que estos codifican...”<br />

En [4] se realizaron las firmas g<strong>en</strong>éticas <strong>de</strong> siete especies<br />

usando FCGR, luego se aplico un analisis <strong>de</strong> compon<strong>en</strong>tes<br />

principales (PCA, Principal Compon<strong>en</strong>t Analysis)<br />

y posteriorm<strong>en</strong>te se estableció la distancia que había <strong>en</strong>tre<br />

cada firma, <strong>de</strong>terminando así similitu<strong>de</strong>s filog<strong>en</strong>éticas<br />

<strong>en</strong>tre las especies analizadas.<br />

4. Chaos Game Repres<strong>en</strong>tation of<br />

Frequ<strong>en</strong>cies - FCGR<br />

Las secu<strong>en</strong>cias g<strong>en</strong>ómicas están <strong>en</strong> un constante estado<br />

<strong>de</strong> variación <strong>de</strong>bido a procesos, tales como la transposición,<br />

transformación, translocation y recombinación.<br />

(Karlin et al, 1998; Casj<strong>en</strong>s,1998 )<br />

Figura 1: Configuración <strong>de</strong> frecu<strong>en</strong>cias (columna izquierda)<br />

y firma g<strong>en</strong>ética (columna <strong>de</strong>recha) para tamaños <strong>de</strong><br />

oliginucleótidos (a) <strong>de</strong> longitud 1, (b) <strong>de</strong> longitud 2, y (c)<br />

<strong>de</strong> longitud 3. Para las firmas g<strong>en</strong>éticas fue usado el g<strong>en</strong>oma<br />

completo <strong>de</strong> Archaeglobus Fulgidus.<br />

Básicam<strong>en</strong>te, todo el conjunto <strong>de</strong> frecu<strong>en</strong>cias <strong>de</strong><br />

oligonucleótidos, <strong>en</strong>contrados <strong>en</strong> una secu<strong>en</strong>cia g<strong>en</strong>ómica<br />

dada, pued<strong>en</strong> ser mostrados <strong>en</strong> la forma <strong>de</strong> una sola<br />

imag<strong>en</strong> <strong>en</strong> la cual cada pixel está asociado a una cad<strong>en</strong>a<br />

<strong>de</strong> oligonucleótidos específica. Las frecu<strong>en</strong>cias <strong>en</strong>contradas<br />

<strong>en</strong> una secu<strong>en</strong>cia, son mostradas <strong>en</strong> una imag<strong>en</strong><br />

cuadrada y la posición <strong>de</strong> cada secu<strong>en</strong>cia <strong>de</strong> oligonucleótidos<br />

es escogida <strong>de</strong> acuerdo a un procedimi<strong>en</strong>to recursivo.<br />

Es por eso que la imag<strong>en</strong> es dividida <strong>en</strong> cuatro<br />

cuadrantes <strong>en</strong> las cuales, las secu<strong>en</strong>cias que terminan <strong>en</strong><br />

una base apropiada son recolectadas.<br />

En FCGR la imag<strong>en</strong> es divida <strong>en</strong> 4 n cuadrados, don<strong>de</strong> n<br />

es la longitud <strong>de</strong> los oligonucleótidos a repres<strong>en</strong>tar. Para<br />

cada oligonucleótido un FCGR <strong>de</strong>be ser g<strong>en</strong>erado. En la<br />

figura 1 obsérvese tres ejemplos <strong>de</strong> configuración <strong>de</strong> frecu<strong>en</strong>cias<br />

<strong>de</strong> oligonucleótidos. La firma g<strong>en</strong>ética obt<strong>en</strong>ida<br />

En la Figura 1(a) correspon<strong>de</strong> simplem<strong>en</strong>te a la frecu<strong>en</strong>cia<br />

absoluta <strong>de</strong> los nucleótidos A, C, G e T. Es importante<br />

<strong>de</strong>stacar que, la frecu<strong>en</strong>cia <strong>de</strong> oligonucleótidos es repres<strong>en</strong>tada<br />

por una escala <strong>de</strong> grises, si<strong>en</strong>do que la mayor<br />

probabilidad esta repres<strong>en</strong>tada por el color negro. Entretanto,<br />

la firma g<strong>en</strong>ética para tamaño <strong>de</strong> oligonucleótido<br />

2, mostrada <strong>en</strong> la figura 1(b), las frecu<strong>en</strong>cias consi<strong>de</strong>radas<br />

serán las correspondi<strong>en</strong>tes a la probabilidad <strong>de</strong> <strong>en</strong>contrar<br />

las sigui<strong>en</strong>tes palabras <strong>en</strong> el g<strong>en</strong>oma: AA, CA, GA, TA,<br />

AC, CC, GC, TC, AG, CG, GG, TG, AT, CT, GT, y TT.<br />

En este contexto, cuando lo que se busca es repres<strong>en</strong>tar<br />

tetranucleótidos <strong>en</strong> una imag<strong>en</strong> FCGR, un total <strong>de</strong> 4 4<br />

(256) pequeños cuadrados formarán la imag<strong>en</strong> completa;<br />

cada pequeño cuadrado correspon<strong>de</strong> a un tetranucleótido,<br />

como se ve <strong>en</strong> la figura 2.<br />

En [4] nos dice; usando CGR, se observa que las subse-


FIRMAS GENÉTICAS EN SECUENCIAS DE <strong>ADN</strong> 3<br />

Figura 2: FCGR para Archaeglobus Fulgidus.<br />

cu<strong>en</strong>cias <strong>de</strong> un g<strong>en</strong>oma, muestran las principales características<br />

<strong>de</strong> todo el g<strong>en</strong>oma, comprobando así la vali<strong>de</strong>z<br />

<strong>de</strong> la firma g<strong>en</strong>ómica.<br />

La firma g<strong>en</strong>ética es especie-específica, según [11]. El<br />

estudio <strong>de</strong> oligonucleótidos (o palabras) <strong>en</strong>contrados <strong>en</strong><br />

g<strong>en</strong>omas <strong>de</strong>bería ayudar a <strong>de</strong>tectar factores <strong>de</strong> especificidad.<br />

El uso <strong>de</strong> fragm<strong>en</strong>tos <strong>de</strong> mediano tamaño (5 a 10 kb)<br />

permite una casi perfecta clasificación y pue<strong>de</strong> incluso ser<br />

usada para difer<strong>en</strong>ciar especies muy similares.<br />

Así como <strong>en</strong> [3] se afirma que, la firma g<strong>en</strong>ética expresa<br />

el uso <strong>de</strong> pequeñas cad<strong>en</strong>as <strong>de</strong> oligonucleótidos <strong>en</strong><br />

una secu<strong>en</strong>cia. Esta se pue<strong>de</strong> mostrar como una imag<strong>en</strong>,<br />

don<strong>de</strong> cada cuadrado repres<strong>en</strong>ta la frecu<strong>en</strong>cia <strong>de</strong> una palabra<br />

dada. En ese estudio, el g<strong>en</strong>oma Bacillus subtitlis es<br />

escaneado a través <strong>de</strong> v<strong>en</strong>tanas <strong>de</strong> 3000 nucleótidos (firmas<br />

locales). <strong>Firmas</strong> <strong>de</strong> v<strong>en</strong>tanas sucesivas son mostradas<br />

como líneas verticales consecutivas. La firma g<strong>en</strong>ómica<br />

(con ligeras variaciones) es observable <strong>en</strong> muchas <strong>de</strong> las<br />

v<strong>en</strong>tanas, como <strong>en</strong> la figura 3. Des<strong>de</strong> que una figura es<br />

observable <strong>en</strong> todas las especies, la invarianza <strong>de</strong> la firma<br />

a lo largo <strong>de</strong>l g<strong>en</strong>oma lleva a un estilo especie-específico.<br />

5. Conjuntos <strong>de</strong> datos<br />

Para validar nuestro trabajo consi<strong>de</strong>raremos datos<br />

correspondi<strong>en</strong>tes 21 especies, obt<strong>en</strong>idas <strong>de</strong>l repositorio<br />

NCBI-G<strong>en</strong>Bank, cuya taxonomía esta <strong>de</strong>tallada <strong>en</strong> la tabla<br />

1 2 :<br />

De todas las especies consi<strong>de</strong>radas, fueron creados 4<br />

conjuntos <strong>de</strong> prueba para nuestros experim<strong>en</strong>tos <strong>de</strong> firmas<br />

g<strong>en</strong>éticas:<br />

1. G<strong>en</strong>oma Completo para cada especie.<br />

2. 50 subsecu<strong>en</strong>cias <strong>de</strong> tamaño 100 000 para cada especie.<br />

Si<strong>en</strong>do que fueron aleatoriam<strong>en</strong>te extraidas<br />

1000 cad<strong>en</strong>as <strong>de</strong> tamaño 100.<br />

2 Taxonomía obt<strong>en</strong>ida <strong>de</strong> NCBI Taxonomy Database:<br />

http://www.ncbi.nlm.nih.gov/Taxonomy/<br />

Figura 3: Firma g<strong>en</strong>ética aplicando FCGR <strong>de</strong> Bacillus subtitlis<br />

cada 3000 nucleótidos.<br />

Especie Reino G<strong>en</strong>ero Tamaño<br />

A. fulgidus Archaea Archaeoglobus 2.158 Kb<br />

B. burgdorferi Bacteria Borrelia 31 Kb<br />

C. acetobutylicum Bactera Clostridium 3.904 Kb<br />

V. cholerae Bacteria Vibrio 4.711 Kb<br />

E. coli Bacteria Escherichia 4.596 Kb<br />

A. fumigatus Fungi Aspergillus 4.873 Kb<br />

C. albicans Fungi Candida 941 Kb<br />

E. cuniculi Fungi Encephalitozoon 209 Kb<br />

E. gossypii Fungi Eremothecium 686 Kb<br />

M. jannaschii Bacteria Marinobacterium 1.659 Kb<br />

M. leprae Bacteria Mycobacterium 3.238 Kb<br />

T. maritima Bacteria Thermotoga 1.844 Kb<br />

D. melanogaster Animalia Drosophila 1.256 Kb<br />

M. tuberculosis Bacteria Mycobacterium 4.363 Kb<br />

T. pallidum Bacteria Treponema 1.128 Kb<br />

S. pneumoniae Bacteria Streptococcus 2.020 Kb<br />

D. radiodurans Bacteria Deinococcus 2.624 Kb<br />

S. solfataricus Archaea Sulfolobus 2.964 Kb<br />

S. sp PCC6803 Bacteria Synechocystis 3.540 Kb<br />

A. tumefaci<strong>en</strong>s Bacteria Agrobacterium 2.815 Kb<br />

B. subtilis Bacteria Bacillus 4.175 Kb<br />

Cuadro 1: Características <strong>de</strong> las especies consi<strong>de</strong>radas <strong>en</strong><br />

nuestro trabajo.<br />

3. Subsecu<strong>en</strong>cia <strong>de</strong> tamaño 100 000 extraída <strong>de</strong> las <strong>Regiones</strong><br />

Codificantes, <strong>de</strong> cada especie.<br />

4. Subsecu<strong>en</strong>cia <strong>de</strong> tamaño 100 000 extraída <strong>de</strong> las <strong>Regiones</strong><br />

No Codificantes, <strong>de</strong> cada especie.<br />

Cabe <strong>de</strong>stacar que:<br />

Las firmas g<strong>en</strong>éticas fueron obt<strong>en</strong>idas a través <strong>de</strong><br />

la técnica FCGR para oligonucleótidos <strong>de</strong> tamaño 8,<br />

obt<strong>en</strong>i<strong>en</strong>do <strong>en</strong>tonces imág<strong>en</strong>es <strong>de</strong> 2 8 X2 8 pixels, <strong>en</strong>


FIRMAS GENÉTICAS EN SECUENCIAS DE <strong>ADN</strong> 4<br />

un total <strong>de</strong> 65 536 bases.<br />

Las <strong>Regiones</strong> Codificantes y No Codificantes <strong>de</strong> los<br />

g<strong>en</strong>omas, fueron extraídas usando el método basado<br />

la MMT (Transformada Modificada <strong>de</strong> Morlet) <strong>de</strong>scrito<br />

<strong>en</strong> [9], compuesto por tres pasos:<br />

• Mapeami<strong>en</strong>to numérico <strong>de</strong> una secu<strong>en</strong>cia <strong>de</strong> <strong>ADN</strong><br />

a cuatro secu<strong>en</strong>cias binarias.<br />

• Aplicación <strong>de</strong> la MMT a cada secu<strong>en</strong>cia binaria.<br />

• Proyección <strong>de</strong> las secu<strong>en</strong>cias espectrales sobre el<br />

eje <strong>de</strong> las posiciones.<br />

• Extracción <strong>de</strong> 100 000 bases correspondi<strong>en</strong>tes a<br />

regiones cuyos coefici<strong>en</strong>tes <strong>de</strong> proyección fueron<br />

mayores al 80 % <strong>de</strong>l valor <strong>de</strong> proyección más<br />

gran<strong>de</strong> obt<strong>en</strong>ido <strong>en</strong> el análisis.<br />

6. Técnicas <strong>de</strong> agrupami<strong>en</strong>to<br />

Según [6], Clustering es una clasificación <strong>de</strong> patrones no<br />

supervisada <strong>en</strong> grupos (clusters). Exist<strong>en</strong> difer<strong>en</strong>tes técnicas<br />

<strong>de</strong> agrupami<strong>en</strong>to <strong>de</strong> datos, <strong>en</strong>tre ellas t<strong>en</strong>emos:<br />

1. Least Square Projection(LSP) : [5]<br />

Dado un conjunto <strong>de</strong> puntos S = {p 1 , ...., p n } <strong>en</strong> R m ,<br />

el algoritmo LSP ti<strong>en</strong>e como objetivo repres<strong>en</strong>tar los<br />

puntos <strong>de</strong> S es un espacio <strong>de</strong> m<strong>en</strong>or dim<strong>en</strong>sion R d ,<br />

d < m, <strong>de</strong> manera que se preserve la relación <strong>de</strong><br />

vecindad <strong>en</strong>tre los puntos tanto como sea posible.<br />

Dos pasos principales se realizan <strong>en</strong> el proceso <strong>de</strong><br />

proyección:<br />

Primero un subconjunto <strong>de</strong> puntos <strong>en</strong> S, llamado<br />

“puntos control” son proyectados <strong>en</strong> R d por MDS<br />

(Multidim<strong>en</strong>sional Scaling).<br />

Haci<strong>en</strong>do uso <strong>de</strong> la relación <strong>de</strong> vecindad <strong>de</strong> los<br />

puntos <strong>en</strong> R m y las coord<strong>en</strong>adas cartesianas <strong>de</strong> los<br />

puntos <strong>de</strong> control <strong>en</strong> R d , es posible construir un<br />

sistema linear cuyas soluciones están <strong>en</strong> las coord<strong>en</strong>adas<br />

cartesianas <strong>de</strong> los puntos p i <strong>en</strong> R d<br />

2. K-means : [6]<br />

Es el algoritmo más simple y más usado, aplicando<br />

un criterio <strong>de</strong> errores cuadrados [McQue<strong>en</strong> 1967].<br />

Empieza con una partición aleatoria inicial y se<br />

manti<strong>en</strong>e reasignando los patrones a los clusters<br />

basado <strong>en</strong> la similitud <strong>en</strong>tre patrones y los c<strong>en</strong>tros<br />

<strong>de</strong> los clusters hasta que el criterio <strong>de</strong> converg<strong>en</strong>cia<br />

es alcanzado. Es un algoritmo popular por su fácil<br />

implem<strong>en</strong>tación y su complejidad es O(n), don<strong>de</strong> n<br />

es el numero <strong>de</strong> patrones. El mayor problema <strong>de</strong> este<br />

algoritmo es que es s<strong>en</strong>sible a la selección <strong>de</strong> la partición<br />

inicial y pue<strong>de</strong> converger a un mínimo local si<br />

es que la partición inicial no fue escogida apropiadam<strong>en</strong>te.<br />

3. Principal Compon<strong>en</strong>t Analysis (PCA) :<br />

En la literatura <strong>de</strong> agrupami<strong>en</strong>to, PCA es a veces<br />

aplicada para reducir la dim<strong>en</strong>sionalidad <strong>de</strong>l conjunto<br />

<strong>de</strong> datos antes <strong>de</strong> agrupar. La i<strong>de</strong>a <strong>de</strong> usar PCA<br />

antes <strong>de</strong> agrupar, es que PCA pue<strong>de</strong> extraer la estructura<br />

<strong>de</strong>l cluster <strong>en</strong> el conjunto <strong>de</strong> datos.[Jollife et al.<br />

1980]. Según las conclusiones <strong>de</strong> [8]: “La calidad <strong>de</strong><br />

los resultados <strong>de</strong> agrupami<strong>en</strong>to <strong>de</strong>spués <strong>de</strong> aplicar<br />

PCA no es necesariam<strong>en</strong>te más alta que con sólo los<br />

datos originales.”<br />

4. Self Organizing Map (SOM) : [12]<br />

<strong>Un</strong>a SOM consiste usualm<strong>en</strong>te <strong>de</strong> un red <strong>de</strong><br />

unida<strong>de</strong>s, <strong>de</strong> 2 dim<strong>en</strong>siones. Cada unidad i, esta repres<strong>en</strong>tada<br />

por un vector prototipo m i = [m i1 , ....m id ],<br />

don<strong>de</strong> d es la dim<strong>en</strong>sión <strong>de</strong>l vector <strong>de</strong> <strong>en</strong>trada.<br />

Las unida<strong>de</strong>s están conectadas a sus adyac<strong>en</strong>tes a<br />

través <strong>de</strong> una relación <strong>de</strong> vecindad. Durante el <strong>en</strong>tr<strong>en</strong>ami<strong>en</strong>to,<br />

la SOM forma una red elástica que se<br />

pliega <strong>en</strong> la nube formada por los datos <strong>de</strong> <strong>en</strong>trada.<br />

7. Resultados y Discusión<br />

Las pruebas fueron <strong>de</strong>sarrolladas y probadas <strong>en</strong> una<br />

computador conv<strong>en</strong>cional: P<strong>en</strong>tium IV, con procesador<br />

AMD Turion 64X2 <strong>de</strong> 1.81GHz y 1.93GB <strong>de</strong> RAM.<br />

A seguir mostramos el cálculo <strong>de</strong> firmas g<strong>en</strong>éticas y su<br />

posterior clasificación usando Least Square Projection <strong>de</strong><br />

la herrami<strong>en</strong>ta PEx, anteriorm<strong>en</strong>te m<strong>en</strong>cionada, con los<br />

sigui<strong>en</strong>te parámetros:<br />

Técnica <strong>de</strong> Proyección : Least Square Projection.<br />

Tipo <strong>de</strong> Distancia : Euclidiana.<br />

Algoritmo <strong>de</strong> Clustering : K-means.<br />

Número <strong>de</strong> Vecinos : 2.<br />

Los casos a tomar <strong>en</strong> cu<strong>en</strong>ta son los sigui<strong>en</strong>tes, tal como<br />

se mostró <strong>en</strong> la sección 5, don<strong>de</strong> se <strong>de</strong>scribe como se<br />

formó cada uno <strong>de</strong> los archivos <strong>de</strong> prueba :<br />

(i) <strong>Un</strong>a muestra por cada especie.<br />

(ii) 50 muestras <strong>de</strong> tamaño 100 000, por cada especie.<br />

(iii) <strong>Un</strong>a muestra <strong>de</strong> tamaño 100 000 obt<strong>en</strong>ida <strong>de</strong> las regiones<br />

codificantes, por cada especie.<br />

(iv) <strong>Un</strong>a muestra <strong>de</strong> tamaño 100 000 obt<strong>en</strong>ida <strong>de</strong> las regiones<br />

no codificantes, por cada especie.<br />

De forma ilustrativa, mostramos resultados para los<br />

organismos A. fulgidus, E. coli y V. cholerae. Los firmas<br />

g<strong>en</strong>éticas obt<strong>en</strong>idas, aplicando FCGR, para cada uno <strong>de</strong><br />

los casos anteriorm<strong>en</strong>te m<strong>en</strong>cionados, se muestran <strong>en</strong> las<br />

figuras 4, 5 y 6. En estas imág<strong>en</strong>es se pue<strong>de</strong> apreciar que la<br />

firma g<strong>en</strong>ética para cada uno <strong>de</strong> los casos es idéntica, pudi<strong>en</strong>do<br />

variar <strong>en</strong> los valores <strong>de</strong> las frecu<strong>en</strong>cias <strong>de</strong> acuerdo<br />

al número <strong>de</strong> nucleótidos utilizados para realizar la firma.<br />

En las figuras 7 y 8, se muestran los resultados <strong>de</strong><br />

aplicar Least Square Projection a los archivos <strong>de</strong> prueba


FIRMAS GENÉTICAS EN SECUENCIAS DE <strong>ADN</strong> 5<br />

(a) A. fulgidus-G<strong>en</strong>oma (b) A. fulgidus-<br />

Completo<br />

Subsecu<strong>en</strong>cias<br />

(c) A. fulgidus-Exones<br />

(d) A. fulgidus-Intrones<br />

Figura 4: A. fulgidus - <strong>Firmas</strong> G<strong>en</strong>éticas <strong>de</strong> tamaño 2 8 obt<strong>en</strong>idas para cada uno <strong>de</strong> los casos [(i),(ii),(iii),(iv)].<br />

(a) E. coli-G<strong>en</strong>oma Completo<br />

(b) E. coli-Subsecu<strong>en</strong>cias (c) E. coli-Exones (d) E. coli-Intrones<br />

Figura 5: E. coli - <strong>Firmas</strong> G<strong>en</strong>éticas <strong>de</strong> tamaño 2 8 obt<strong>en</strong>idas para cada uno <strong>de</strong> los casos [(i),(ii),(iii),(iv)].<br />

(a) V. cholerae-G<strong>en</strong>oma (b) V. cholerae-<br />

Completo<br />

Subsecu<strong>en</strong>cias<br />

(c) V. cholerae-Exones<br />

(d) V. cholerae-Intrones<br />

Figura 6: V. cholerae - <strong>Firmas</strong> G<strong>en</strong>éticas <strong>de</strong> tamaño 2 8 obt<strong>en</strong>idas para cada uno <strong>de</strong> los casos [(i),(ii),(iii),(iv)].<br />

para los casos (i),(ii),(iii) y (iv), y se pue<strong>de</strong> observar que<br />

<strong>en</strong> todos los casos se realiza un clustering apropiado, reconoci<strong>en</strong>do<br />

siempre las 21 especies, a<strong>de</strong>más especies con<br />

proximidad filog<strong>en</strong>ética se <strong>en</strong>cu<strong>en</strong>tran más cercanas.<br />

Por lo tanto, con nuestros experim<strong>en</strong>tos realizados,<br />

acreditamos fuertem<strong>en</strong>te que las firmas g<strong>en</strong>éticas no<br />

ti<strong>en</strong><strong>en</strong> influ<strong>en</strong>cias <strong>de</strong> las regiones codificantes ni <strong>Regiones</strong><br />

no Codificantes, las especies se pued<strong>en</strong> repres<strong>en</strong>tar con<br />

tan sólo una subsecu<strong>en</strong>cia <strong>de</strong>l g<strong>en</strong>oma completo, quedando<br />

abierta la posibilidad <strong>de</strong> evaluar el tamaño aproximado<br />

<strong>de</strong> oligonucleótidos para repres<strong>en</strong>tar <strong>de</strong> una manera<br />

a<strong>de</strong>cuada los g<strong>en</strong>omas.<br />

Este trabajo, correspondi<strong>en</strong>te al tema <strong>de</strong> tesis <strong>de</strong>l<br />

primer autor, aún continua <strong>en</strong> estudio, si<strong>en</strong>do que una<br />

<strong>de</strong> las tareas a realizar <strong>en</strong> un futuro inmediato es la<br />

clasificación <strong>de</strong> secu<strong>en</strong>cias g<strong>en</strong>ómicas, usando firmas<br />

g<strong>en</strong>éticas. En ese s<strong>en</strong>tido, usamos algunas técnicas<br />

<strong>de</strong>scritas <strong>en</strong> la sección 6, dando un mayor énfasis <strong>en</strong> el<br />

análisis <strong>de</strong> compon<strong>en</strong>tes principales y LSP.<br />

En la figura 9, se pue<strong>de</strong> apreciar los resultados<br />

obt<strong>en</strong>idos para PCA y LSP (usando la herrami<strong>en</strong>ta PEx)<br />

con archivos que cont<strong>en</strong>ían datos <strong>de</strong> 3 especies [10] 3 y<br />

SOM (usando Neural Network Toolbox <strong>de</strong> Matlab) con<br />

archivos que cont<strong>en</strong>ían 5 especies 4<br />

3 PEx es una herrami<strong>en</strong>ta <strong>de</strong> visualización hecha <strong>en</strong> JAVA que pue<strong>de</strong><br />

ser usada para crear y explorar repres<strong>en</strong>taciones visuales <strong>de</strong> docum<strong>en</strong>tos<br />

y también pue<strong>de</strong> ser usado para analizar otros tipos <strong>de</strong> datos multidim<strong>en</strong>sionales.<br />

http://infoserver.lcad.icmc.usp.br/infovis2/PEx<br />

4 Neural Network Toolbox : http://www.mathworks.com/products/neuralnet/


FIRMAS GENÉTICAS EN SECUENCIAS DE <strong>ADN</strong> 6<br />

(a) Least Square Projection - G<strong>en</strong>oma Completo<br />

(b) Least Square Projection - Subsecu<strong>en</strong>cias<br />

Figura 7: Clustering <strong>de</strong> <strong>Firmas</strong> G<strong>en</strong>éticas <strong>de</strong> tamaño 2 8 para los casos [(i) y (ii)].<br />

(a) Least Square Projection - Exones<br />

(b) Least Square Projection - Intrones<br />

Figura 8: Clustering <strong>de</strong> <strong>Firmas</strong> G<strong>en</strong>éticas <strong>de</strong> tamaño 2 8 para los casos [(iii) y (iv)].


FIRMAS GENÉTICAS EN SECUENCIAS DE <strong>ADN</strong> 7<br />

(a) Least Square Projection (b) Principal Compon<strong>en</strong>t Analysis (c) Self Organizing Map<br />

Figura 9: Resultados para 3 técnicas <strong>de</strong> agrupami<strong>en</strong>to.<br />

8. Conclusiones<br />

Comprobamos que aplicando FCGR a un g<strong>en</strong>oma y<br />

sin la necesidad <strong>de</strong> aplicar PCA a los datos antes <strong>de</strong><br />

realizar la clasificación, se forman 21 grupos difer<strong>en</strong>tes,<br />

correspondi<strong>en</strong>tes a las especies utilizadas <strong>en</strong><br />

las pruebas.<br />

También se comprobó que las firmas g<strong>en</strong>éticas <strong>de</strong><br />

subsecu<strong>en</strong>cias <strong>de</strong> un g<strong>en</strong>oma, son similares, permiti<strong>en</strong>do<br />

así la reducción <strong>de</strong> memoria y tiempo <strong>en</strong> el<br />

análisis <strong>de</strong> g<strong>en</strong>omas.<br />

Así como se pudo apreciar <strong>en</strong> los resultados,<br />

preparatoriam<strong>en</strong>te confirmamos el concepto <strong>de</strong> las<br />

firmas g<strong>en</strong>éticas: “especie-especifica” pues siempre las<br />

especies se mostraban separadas a una distancia estadísticam<strong>en</strong>te<br />

razonable, unas <strong>de</strong> otras.<br />

Se pue<strong>de</strong> concluir que especies que mostraron firmas<br />

g<strong>en</strong>éticas similares, fueron visualizadas <strong>en</strong> la imag<strong>en</strong><br />

mucho más juntas que las <strong>de</strong>más.<br />

A partir <strong>de</strong> la imág<strong>en</strong>es obt<strong>en</strong>idas <strong>en</strong> los resultados,<br />

se ve que las firmas g<strong>en</strong>éticas repres<strong>en</strong>tan a las especies<br />

con tan sólo una subsecu<strong>en</strong>cia <strong>de</strong>l g<strong>en</strong>oma, sin<br />

importar si pert<strong>en</strong>ec<strong>en</strong> a las regiones codificantes o<br />

no codificantes.<br />

<strong>Un</strong>a suposición a ser comprobada es el correspondi<strong>en</strong>te<br />

al tamaño <strong>de</strong> oligonucleótidos a evaluar <strong>en</strong><br />

el FCGR para obt<strong>en</strong>er la firma g<strong>en</strong>ética, así como<br />

también la longitud <strong>de</strong> la subsecu<strong>en</strong>cia <strong>de</strong>l g<strong>en</strong>oma<br />

a evaluar; <strong>de</strong> manera que se repres<strong>en</strong>te a<strong>de</strong>cuadam<strong>en</strong>te<br />

a las especies.<br />

[3] A. Giron et al Deschavanne, P. G<strong>en</strong>omic signature: is preserved<br />

in short dna fragm<strong>en</strong>ts. BIBE 2000 IEEE international<br />

Symposium on bioinformatics biomedical <strong>en</strong>g<strong>en</strong>eering ,<br />

Washintown USA, pages 161–167, november 2000.<br />

[4] Vilain Fagot Fertil Deschavanne, Giron. G<strong>en</strong>omic signature:characterization<br />

and classification of species assessed<br />

by chaos game repres<strong>en</strong>tation of sequ<strong>en</strong>ces.<br />

[5] Rosane Minghim Fernando V. Paulovich, Luis Gustavo<br />

Nonato and Haim Levkowitz. Least square projection:<br />

A fast high-precision multidim<strong>en</strong>sional projection technique<br />

and its application to docum<strong>en</strong>t mapping. IEEE<br />

TRANSACTIONS ON VISUALIZATION AND COMPUT-<br />

ER GRAPHICS, 14(3):565–566, MAY/JUNE 2008.<br />

[6] A. K. Jain, M. N. Murty, and P. J. Flynn. Data clustering: a<br />

review. ACM Comput. Surv., 31(3):264–323, 1999.<br />

[7] H.J. Jeffrey. Chaos game repres<strong>en</strong>tation of g<strong>en</strong>e structure.<br />

Nucleic Acids Research., (18):2163–2170, 1990.<br />

[8] W.L. Ruzzo K.Y. Yeung. Principal compon<strong>en</strong>t analysis for<br />

clustering g<strong>en</strong>e expression data. Bioinformatics, 17(9):763–<br />

774, Setiembre 2001.<br />

[9] J. P. M<strong>en</strong>a-Chalco. Id<strong>en</strong>tificação <strong>de</strong> regiões codificantes <strong>de</strong><br />

proteína através da transformada modificada <strong>de</strong> Morlet.<br />

Master’s thesis, IME-USP, October 2005.<br />

[10] Fernando V. Paulovich, Maria Cristina F. Oliveira, and<br />

Rosane Minghim. The projection explorer: A flexible<br />

tool for projection-based multidim<strong>en</strong>sional visualization.<br />

In Proceedings of the XX Brazilian Symposium on Computer<br />

Graphics and Image Processing - SIBGRAPI, pages 27–36, Belo<br />

Horizonte, Brazil, 2007. IEEE CS Press.<br />

[11] Patrick DESCHAVANNE Sylvain LESPINATS,<br />

Alain GIRON and Bernard FERTIL. Dna sequ<strong>en</strong>ces<br />

share a common syntax.<br />

[12] J. Vesanto and E. Alhoniemi. Clustering of the selforganizing<br />

map. Neural Networks, IEEE Transactions on,<br />

11(3):586–600, May 2000.<br />

[13] Shiva Singh Yingwei Wang, Kathle<strong>en</strong> Hill and Lila Kari.<br />

The spectrum of g<strong>en</strong>omic signatures: from dinucleoti<strong>de</strong>s<br />

to chaos game repres<strong>en</strong>tation.<br />

Refer<strong>en</strong>cias<br />

[1] Maretzek Noble Fletcher Almeida, Carric. Analysis of g<strong>en</strong>omic<br />

sequ<strong>en</strong>ces by chaos game repres<strong>en</strong>tation. 2001.<br />

[2] A. Morris Ania L. Manson, Emma Jones. Lo es<strong>en</strong>cial <strong>en</strong> celula<br />

y g<strong>en</strong>etica, volume of . , , edition, . .

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!