secuenciación de ácidos nucleicos - Instituto de Biotecnología - UNAM

secuenciación de ácidos nucleicos - Instituto de Biotecnología - UNAM secuenciación de ácidos nucleicos - Instituto de Biotecnología - UNAM

from ibt.unam.mx More from this publisher

18.05.2013 Views

INSTITUTO DE BIOTECNOLOGÍA-UNAM MÉTODOS FISICOQUÍMICOS EN BIOTECNOLOGÍA: SECUENCIACIÓN DE ÁCIDOS NUCLEICOS PROYECTO DE INVESTIGACIÓN: ROSALIA DE NECOCHEA CAMPION JUAN CARLOS CANUL TEC CUERNAVACA,MOR JUNIO 2004

INSTITUTO DE BIOTECNOLOGÍA-UNAM

MÉTODOS FISICOQUÍMICOS EN BIOTECNOLOGÍA:

SECUENCIACIÓN

DE ÁCIDOS NUCLEICOS

PROYECTO DE INVESTIGACIÓN:

ROSALIA DE NECOCHEA CAMPION

JUAN CARLOS CANUL TEC

CUERNAVACA,MOR JUNIO 2004

INDICE

Algunos acontecimientos relevantes al desarrollo de los 3

métodos de secuenciación de los ácidos nucleicos

1.0 INTRODUCCIÓN 5

1.1 Los orígenes de la investigación de los ácidos nucleícos 6

1.2 La identificación de los componentes 7

1.3 El descubrimiento de la estructura del ADN 8

2.0 FUNDAMENTOS TEÓRICOS 11

2.1 Estructura de los ácidos nucleicos 11

2.2 Función biológica de los ácidos nucleicos 12

3.0 DESARROLLO HISTÓRICO 13

3.1 Secuenciación de ácidos nucleicos 13

3.2 El método de degradación química 17

3.2.1 Ventajas y desventajas 19

3.3 El método enzimático 20

3.3.1 Limitaciones del método enzimático 21

4.0 MÉTODOS CONTEMPORÁNEOS EN LA SECUENCIACIÓN 22

4.1 Automatización del método de Sanger 22

4.1.1 La técnica de PCR y su relevancia a la secuenciación 23

4.1.2 Polimerasa Taq 24

4.1.3 Marcado de la cadena de ADN 25

4.1.4 Incorporación del marcaje a la cadena de ADN 26

4.1.5 Secuenciación automatizada 28

4.1.6 El desarrollo de maquinas de secuenciación 29

4.2 Secuenciación de ARN 31

4.2.1 Métodos indirectos 31

4.2.2 Métodos directos 33

4.3 Resumen de enzimas utilizadas en la secuenciación 34

5.0 ESTRATEGIAS Y APLICACIONES DE LA SECUENCIACIÓN DE 35

ÁCIDOS NUCLEICOS

5.1 Proyecto de secuenciación del genoma humano 35

5.2 Estrategias para la secuenciación de fragmentos grandes 37

5.2.1 “Chromosome Walking” 37

5.2.2 “Shotgun Sequencing” 38

5.3 Otras aplicaciones 40

6.0 El FUTURO DE LA SECUENCIACION 41

6.1 Secuenciación por hibridización 41

6.2 Secuenciación a futuro sin fragmentación de ADN 41

7.0 REFERENCIAS 43

Figuras

INDICE DE TABLAS Y FIGURAS

Figura 1. Las bases presentes en los ácidos nucleicos 7

Figura 2. Estructura química de los nucleótidos 8

Figura 3. Estructura de la doble hélice del ADN 11

Figura 4. El método de secuenciación de Maxam y Gilbert 19

Figura 5. Enzimas de restricción 20

Figura 6. El método de secuenciación de Sanger 21

Figura 7. La reacción de PCR 23

Figura 8. Secuenciadora con detección paralela para 96 caplilares 31

Figura 9. La secuenciadora ABI PRISM 3700 32

Figura 10. La estrategia de “chromosome walking” 38

Figura 11. La estrategia de secuenciación “shotgun” 39

Figura 12. Secuenciación por hibridización 41

Tablas

Tabla 1. 22

Descubrimientos significativos que permitieron el desarrollo de métodos

automatizados de secuenciación de ácidos nucleicos

Tabla 2. 35

Algunas de las enzimas que han tenido un papel importante

en el desarrollo de los métodos de secuenciación

Algunos acontecimientos relevantes al desarrollo de los métodos de

secuenciación de los ácidos nucleícos

1871. Johann Meisher describe el ácido desoxirribonucleico (ADN) en el

esperma de la trucha.

1944. Oswald Avery, Colin McLeod y Macyln McCarthy demuestran que el ADN

es la substancia en donde reside la información genética.

1950. Erwin Chargaff determina que las cantidades de adenina y timina, y de

citosina y guanina, son las mismas en el ADN: “reglas de Chargaff”.

1952. Rosalind Franklin y Maurice Wilkins llevan a cabo estudios de

cristalografía de rayos X del ADN.

1953. James Watson y Francis Crick proponen el modelo de la doble hélice del

ADN.

1958. Matthew Meselson y Frank Stahl demuestran que la replicación del ADN

es semiconservativa.

1960. Arthur Kornberg descubre y aísla la enzima ADN polimerasa.

1961. Marshall Niremberger y Severo Ochoa establecen el código genético

universal.

1968. Matthew Meselson y Robert Yuan aíslan la primera endonucleasa de

restricción.

1977. Allan Maxam y Walter Gilbert, y Frederick Sanger et al., desarrollan

simultáneamente métodos para la determinación de la secuencia de

nucleótidos del ADN.

1978. F. Sanger y su equipo reportan la secuencia genómica completa del

virus øX174.

1981. Se reporta la secuencia del genoma de la mitocondria humana.

1983. Marvin Carruthers y Leroy Hood desarrollan un método para secuenciar

automáticamente fragmentos de ADN de 5 a 75 pares de bases.

1986. Leroy Hood y Lloyd Smith desarrollan el primer secuenciador automático,

que usa un láser que reconoce marcadores de fluorescencia en el ADN.

1987. Kary Mullis desarrolla la técnica de PCR que permite amplificar millones

de veces fragmentos específicos de ADN.

1988. Por iniciativa de Watson, el Instituto Nacional de Salud en EUA,

establece la Oficina para la Investigación del Genoma Humano.

1990. Tres grupos desarrollan simultáneamente el método de electroforesis

capilar, que optimiza la automatización de los métodos de secuenciación del

ADN.

Se inicia el Proyecto del Genoma Humano.

1995. Se reporta la primera secuencia completa del genoma de un organismo

vivo, el de la bacteria Haemophilus influenzae.

1996. Se reporta la primera secuencia del genoma de un eucarionte, el de la

levadura Saccharomyces cerevisiae.

1998. Se reporta la primera secuencia del genoma de un animal; el de

Caenorhabditis elegans.

1999. Se reporta la secuencia nucleotídica del cromosoma humano 22.

2000. Se reporta la primera secuencia del genoma de una planta, el de

Arabidopsis thaliana.

2001. Se reporta por dos grupos en forma simultánea, la secuencia

nucleotídica del genoma humano.

2002. Se reportan las secuencias nucleotídicas de los genomás del ratón (Mus

musculus) y del arroz (Oryza sativa).

1.0 INTRODUCCIÓN.

El lento y tortuoso progreso que acompañó los inicios de la investigación de los

ácidos nucleicos es representativo de lo limitado de las técnicas y la falta de

facilidades en los períodos tempranos de la bioquímica. Las dificultades

encontradas por los investigadores fueron muchas. Era difícil asegurar la

homogeneidad del material de trabajo. No existían métodos establecidos para

el estudio de macromoléculas, y tampoco pautas para el aislamiento de

unidades estructurales. Afortunadamente, algunas substancias cercanamente

relacionadas fueron sintetizadas por químicos orgánicos en experimentos que

usualmente no estaban relacionados con los ácidos nucleicos. Si la

investigación de los ácidos nucleicos debe mucho a la química orgánica en su

período inicial, el trabajo conjunto de la biología y la química han hecho de la

investigación contemporánea de los ácidos nucleicos una rica fuente de

descubrimiento e invención que ha transformado y mejorado la condición

humana.

En general, los ácidos nucleicos son polímeros lineales de nucleótidos.

Pueden tener desde 80 nucleótidos, como en el tARN, hasta más de 10 8 pares

de nucleótidos en un cromosoma eucariótico. El cromosoma de Escherichia

coli tiene 4 x 10 6 pares de bases, 4Mpb. El ADN genómico de una sola célula

humana tiene 3,900 Mpb. A un laboratorio de la mitad de la década de los

setentas le habría tomado dos meses secuenciar 150 nucleótidos.

Actualmente, un laboratorio especializado es capaz de secuenciar varios

millones de nucleótidos al día. Desde esta perspectiva, resulta notoria la

capacidad de secuenciación de ácidos nucleicos de las tecnologías disponibles

actualmente. Y es principalmente, el desarrollo y la automatización de los

métodos fisicoquímicos de macromoléculas biológicas, en general, lo que ha

permitido lograr estos avances en el conocimiento del material genético.

A finales del siglo pasado, se secuenciaron los primeros genomás,

correspondientes a las bacterias Haemophilus Influenzae y Mycobacterium

genitalium. Esfuerzos más recientes han permitido la determinación de

secuencias genómicas más complejas. El primer eucarionte secuenciado fue

Saccharomyces cerevisiae. Posteriormente se reportaron las secuencias de los

genomás de Caenorhabditis elegans, de Drosophila melanogaster y de

Arabidopsis thaliana. A principios del año 2001, dos grupos, de manera

simultánea e independiente, reportaron la secuencia del genoma humano, y a

fines del año 2002 se reportó el genoma del ratón y del arroz.

Con la determinación de la secuencia nucleotídica del genoma humano y

la de otros organismos nos hemos adentrado en el conocimiento de la célula.

Conociendo la secuencia de todos los genes de un organismo, es posible

deducir su proteoma. Asimismo, con la información que se tiene, es posible

empezar el estudio integral y global de las redes metabólicas y conocer la

manera en que una célula regula la expresión genética en diferentes

condiciones metabólicas. Sin embargo, este nuevo conocimiento es preliminar.

Si bien podemos enlistar todos los genes de una célula, la determinación de las

posibles interacciones entre sus productos es una meta a largo plazo todavía.

Hay, pues, mucho más que conocer para entender el proceso mismo de la

vida.

En este trabajo se expone una breve perspectiva histórica de algunos de

los hechos que han repercutido sensiblemente en el avance de las tecnologías

para la secuenciación de los ácidos nucleícos. Desde el tortuoso camino que

llevo a la elucidación de la estructura de la doble hélice, pasando por los

esfuerzos iniciales para desentrañar el lenguaje del ADN (y de la vida) y los

esfuerzos más recientes que inauguraron la era de la genómica. Una mirada

hacia atrás siempre es importante, no sólo porque ayuda a consolidar los

conceptos de una materia en particular, sino también porque se puede

aprender de las experiencias de otros. Además, se presentan los fundamentos

teóricos y físicos relacionados con la química de los ácidos nucleicos.y su

secuenciación. Finalmente, se citan algunas de las aplicaciones que han

permitido profundizar en el conocimiento del material genético de las células.

1.1 Los orígenes de la investigación de los ácidos nucleicos.

La historia de los ácidos nucleicos iniciando en 1869, con los estudios

del bioquímico sueco Friedrich Miescher. En Tuebingen, Miescher extrajo un

material de una fracción nuclear de leucocitos presentes en pus obtenido de

vendajes quirúrgicos. El material extraído, al cual denomino nucleína, era rico

en fósforo. En 1870, Miescher se movió a Basel, donde encontró que el

extracto de esperma de salmón era una gran fuente de nucleína. La nucleína

era una substancia albuminoide y fuertemente ácida, combinada con una base

nitrogenada que Miescher cristalizó y llamo protamina. De hecho, la nucleína

era en realidad una nucleoproteína. Richard Altmann (1889) obtuvo el primer

material libre de proteína, al cual dio el nombre de ácido nucleico. Jules

Piccard, compañero de Miescher en Basel, hizo más estudios con la nucleína y

encontró que también contenía guanina e hipoxantina. Sin embargo, ni

Meischer, ni sus colegas y sucesores se imaginaron que el ácido nucleico

pudiera llevar mensajes complejos en patrones repetidos de componentes más

pequeños (Levine y Suzuki, 2000). La botella con el inocente polvo blanco se

quedó en el anaquel del laboratorio. Tuvieron que pasar varias décadas para

revelar que, de hecho, era una botella de genes.

1.2 La identificación de los componentes.

Lentamente se fueron llevando a cabo estudios más exactos para la

identificación de los componentes de los ácidos nucleicos. La guanina (G)

había sido aislada del guano; sin embargo, su relación con los ácidos nucleicos

se estableció hasta 1910, al compararla con el nucleósido que Phoebus

Levene obtuvo del ácido guanílico. Albrecht Kossel y A. Neumann aislaron la

adenina (A) y la timina (T) de la glándula del timo. Ascoli y Steudel

descubrieron la citosina (C) y el uracilo (U) (Schlenk, 1988).

La ribosa y la desoxirribosa fueron aisladas por Levene en 1909 y 1930,

respectivamente. En ambos casos, el aislamiento de los nucleósidos fue un

requisito para proveer el material inicial. La hidrólisis con piridina del ácido

nucleico de levadura produjo fosfatos y los nucleósidos adenosina, citosina,

guanosina y uridina. Levene determinó que en todos los nucleósidos la pentosa

era una ribosa y nombró al ácido original como ácido ribonucleico (ARN). Los

nucleósidos fueron identificados como derivados de las bases A, C, G y U

(figura 1). En 1929, Levene identificó la desoxirribosa del ácido nucleico aislado

del tejido de la pantorrilla, al cual denominó ácido desoxirribonucleico (ADN).

Este ácido exhibía una mayor resistencia a la hidrólisis química que el ARN, y

consiguió degradarlo con enzimás, seguido de la hidrólisis ácida de sus

desoxinucleótidos.

En 1935, se descubrió que el ADN podría ser cortado enzimáticamente

en mononucleótidos, en presencia de arsenato. Usando este procedimiento,

Klein y Thannhauser obtuvieron los desoxirribonucleótidos y establecieron que

cada nucleótido está unido por un enlace fosfodiéster del hidroxilo 5´ al

hidroxilo 3´ de su otro vecino (figura 2).

Figura 1. Las bases presentes en los

ácidos nucleicos. Las bases guanina

(G), adenina (A) y citosina (C) existen

en el ADN y el ARN. La timina (T) sólo

se encuentra en el ADN y es

substituida en el ARN por el uracilo

(U). Estas bases están unidas

covalentemente a los azúcares

desoxirribosa y ribosa, para formar

así los nucleótidos del ADN y ARN,

respectivamente (ver figura 3).

De manera lenta y errática, las ideas provenientes de diversos campos

empezaron a señalar al ADN como un participante de importancia en la vida de

la célula. El trabajo de Fred Griffith en 1928 y el de los investigadores Oswald

Avery, Colin McLeod y Macyln McCarthy, en 1944, permitió demostrar

inequívocamente que la información genética reside en el ADN. Esta

contribución dio lugar a que un importante esfuerzo científico se enfocara en la

determinación de la composición y la estructura química de la molécula del

ADN. Pese a lo anterior, durante algún tiempo muchos bioquímicos insistieron

en que el ADN era una molécula demásiado “tonta” como para llevar mucha

información; los componentes del ADN parecían muy simples y repetitivos

como para ser portadores de información.

Figura 2. Estructura

química de los (a)

ribonucleótidos y (b)

desoxirribonucleótidos

, constituyentes de los

ácidos nucleicos. En el

ARN, el C-1´ de la Dribosa

está unido al N-

9 de A o G, o al N-1 de

C o U. En el ADN, la 2´desoxi-D-ribosa

está

unida de la misma forma a las cuatro bases, pero la T toma el lugar del U (los

números con tilde se refieren a los átomos de la pentosa; los números sin tilde se

refieren a los de la base nitrogenada). Los grupos fosfato pueden estar unidos al

C3´ o al C5´ de la pentosa. Si el grupo fosfato está ausente, el compuesto es un

nucleósido. En todos los nucleótidos y nucleósidos naturales, el enlace Nglicosídico

que une la base nitrogenada al C1´ del azúcar es de configuración _

(Voet & Voet, 1995).

1.3 El descubrimiento de la estructura del ADN.

A mediados del siglo pasado, los investigadores no pudieron avanzar

más en la elucidación de la estructura primaria del ADN. Ninguno de los

requerimientos claves para la determinación de la secuencia estaba a la mano:

no habían métodos para obtener muestras puras de ADN con una secuencia

de bases homogénea, y tampoco estaban disponibles métodos para el corte de

cadenas de ADN en una base específica. Consecuentemente, toda la atención

se centró en la estructura secundaria.

Dos experimentos independientes demostraron que el ADN poseía una

estructura secundaria ordenada. Ambos dejaron información vital para sus

sucesores, sin embargo, cada contribución tenía un error. En 1938, William

Astbury obtuvo un patrón de difracción de rayos-x de fibras secas de ADN, y

dedujo que el espacio de 3.34 Å a lo largo del eje de la fibra correspondía al de

una sucesión cercana de nucleótidos planos. Éstos sobresalían

perpendicularmente a lo largo del eje de la molécula para formar una estructura

relativamente rígida. Algunos años después, J. Gulland estudió la viscosidad y

la birrefringencia de flujo del ADN y postuló la presencia de puentes de

hidrógeno que unían a los grupos hidroxilo de la piridina y la purina y a algunos

de los grupos aminos. Desafortunadamente, utilizó las formás tautoméricas

enol para la timina y la guanina. La importancia de las formás tautoméricas

correctas (ceto), se reconoció hasta 1953.

Erwin Chargaff estudió la composición del ADN de una amplia variedad

de fuentes. Mediante cromatografía en papel separó los productos de la

hidrólisis del ADN y con espectroscopia ultravioleta cuantificó sus abundancias

relativas. Sus datos mostraron que la proporción de purinas (A+G) siempre es

igual a la proporción de pirimidinas (C-T) en el ADN de cualquier organismo.

Aunque la proporción (G+C)/(A+T) varía de especie a especie, diferentes

tejidos de una sola especie tienen la misma composición de ADN. Cualquier

estructura propuesta para el ADN tenía que considerar este patrón (figura 3).

Los patrones de difracción de rayos X realizados por Rosalind Franklin y

Maurice Wilkins revelaron que el ADN podía tener dos estructuras secundarias

posibles, cuya formación dependía de la humedad relativa a la cual se

obtuvieran los datos. La forma A del ADN se obtuvo a baja humedad. En

cambio, el patrón del B-ADN prevalece a una humedad elevada. Éste patrón

entrecruzado, representativo de las estructuras helicoidales, tiene una fuerte

reflexión a 0.34 nm, que indica el espaciamiento entre los pares de bases

adyacentes, y una reflexión a 3.4 nm que corresponde a un giro completo de la

hélice. Franklin propuso que este comportamiento requería que los grupos

fosfatos estuvieran expuestos al agua en el exterior de la hélice, con el

corolario de que las bases estuvieran en el interior de la hélice.

En 1953, James Watson y Francis Crick descifraron la estructura del

ADN. Watson propuso que el número de nucleótidos en la célula unitaria

cristalográfica favorecía una hélice de doble cadena. Crick dedujo de los datos

del patrón de difracción que la estructura era una díada, es decir, que tiene una

asimetría tal que las cadenas equivalentes son antiparalelas, es decir, corren

en direcciones opuestas a lo largo del eje longitudinal. Sólo quedaba por

resolver un problema: cómo construir el núcleo de la hélice, empacando las

bases juntas en una estructura regular. A partir de las conclusiones de Gulland,

Watson sabía que los puentes de hidrógeno unían las bases del ADN. Esto lo

convenció de que la esencia de la cuestión tenía que ser una regla que

gobernara los puentes de hidrógeno entre las bases.

Aconsejado por Jerry Donohue, Watson manipuló modelos de las bases,

en las formás tautoméricas ceto, apareando la A con la T y la G con la C.

Encontró una relación simple y convincente que involucraba dos puentes de

hidrógeno para una pareja A·T y tres puentes de hidrógeno para una pareja

G·C. La característica especial de este esquema de apareamiento de bases es

que la geometría relativa de los enlaces uniendo las bases a las pentosas es

virtualmente idéntico para los pares A·T y G·C. Resultó obvio que si una purina

siempre se aparea con una pirimidina, entonces una secuencia irregular de

bases en una cadena sencilla de ADN podría estar apareada regularmente en

el centro de una doble hélice sin pérdida de simetría. Las reglas de Chargaff

fueron reveladas directamente como una consecuencia obligatoria de una

estructura de doble hélice para el ADN. Sobre todo, ya que la secuencia de

bases de una cadena automáticamente determina la de su pareja, Crick y

Watson pudieron visualizar fácilmente cómo una cadena sencilla podría ser el

templado para la síntesis de una segunda cadena de secuencia de bases

complementaria (figura 3).

El modelo de Watson y Crick de la estructura del ADN fue aceptado

rápidamente porque lograba dos cuestiones importantes. Primero, daba cuenta

de toda la evidencia química y física disponible. Segundo, abría el camino para

explicar, de manera más detallada, como lleva a cabo el ADN las funciones

necesarias para ser el portador de la información hereditaria. A partir de este

momento, fue aparente que toda la información requerida para especificar la

diversidad de las moléculas biológicas, necesaria para llevar a cabo las

funciones de la célula, había que buscarla en la secuencia irregular de las

bases nucleotídicas. Alexander Dounce, en 1950, postuló que el ARN era el

templado que dirigía la síntesis de proteínas celulares y que una secuencia de

tres nucleótidos especificaba solo un aminoácido. El reconocimiento de varios

tipos de ARN por Robert Holley no tardó en llegar. Más adelante, Gobind

Khorana sintetizó los 64 tri-ribonucleósidos difosfato y los poli-ribonucleótidos

con secuencias repetidas de di-, tri- y tetranucleótidos que fueron usados como

mARN para identificar cada triplete del código. Y el establecimiento del código

genético por Marshall Niremberg y Severo Ochoa fue el evento culminante.

Figura 3. Representación esquemática de la estructura de la doble hélice del ADN.

En el texto se explica la configuración de la estructura.

2.0 FUNDAMENTOS TEORICOS.

2.1 Estructura de los ácidos nucleicos.

El ADN es una doble hélice. Cada una de las hélices es un polímero

integrado por millones de nucleótidos que son los monómeros del polímero.

Cada nucleótido está formado por una desoxirribosa, una base púrica o

pirimídica y un grupo fosfato. Las dos cadenas de ADN son antiparalelas y se

unen entre sí a través de puentes de hidrógeno que se forman entre las bases

complementarias (A·T y G·C) de las dos hebras del ADN. De esta manera, se

obtiene una estructura tipo doble hélice, donde las bases de los nucleótidos se

encuentran orientadas hacia el interior, mientras que los grupos fosfato y las

desoxirribosas lo hacen hacia el exterior, formando los esqueletos fosfodiéster

de cada hélice (figura 3). Los pares de nucleótidos se encuentran separados

entre sí por 3.4 Å, cada diez pares de nucleótidos (34 Å) se alcanza una vuelta

de la hélice. La diferencia fundamental entre todas las moléculas de ADN que

forman el material genético de los seres vivos es la secuencia de los millones

de estos cuatro tipos de nucleótidos con sus bases A, T, G y C en cada

molécula de ADN.

Al igual que en el ADN, los estudios de la estructura del ARN empezaron

con su estructura primaria. Esta búsqueda se logró en paralelo que la del ADN,

pero tuvo la complejidad extra del grupo hidroxilo 2´ de los ribonucleótidos. A

diferencia del ADN, las moléculas de ARN constan generalmente de cadenas

únicas de polinucleótido, debido a que se forman copiando la secuencia de

bases de una cadena de ADN. El apareamiento de las bases de Watson-Crick

en el ARN es normal, aunque el tARN es una rica fuente de pares de bases

inusuales. Hoy se sabe que el ARN tiene una mayor versatilidad estructural

que el ADN en la variedad de sus especies, en la diversidad de sus

conformaciones, y en su reactividad química. Los ARNs naturales pueden

formar estructuras de doble cadena o adoptar una forma globular compuesta

por pequeños dominios dobles conectados por segmentos de cadena sencilla.

Las dobles hélices del ARN sólo pueden adoptar la forma A, ya que el hidroxilo

2´ de la ribosa constituye un impedimento estérico.

2.2 Función biológica de los ácidos nucleicos.

Las funciones de los ácidos nucleicos son de almacenamiento,

expresión y replicación de la información biológica. En términos generales,

todas las moléculas de ADN tienen una configuración similar. Sin embargo, el

ADN de una determinada especie de organismos tiene una secuencia de

bases propia: su estructura primaria está agrupada en unidades funcionales

llamadas genes. La información que contiene esta secuencia desempeña

diversas funciones. Los genes estructurales codifican para enzimás, proteínas

estructurales y proteínas reguladoras. Otros tipos de genes codifican moléculas

de ARN que no especifican la estructura primaria de un polipéptido, i.e., tARNs.

El primer paso en la síntesis de proteínas es la síntesis de una molécula

de ARN usando como molde un segmento de una de las cadenas del ADN. En

la transcripción, el orden de los desoxirribonucleótidos de uno o varios genes

se transfiere uno por uno a una secuencia de ribonucleótidos complementaria.

Este proceso está mediado por la enzima ARN polimerasa; y al igual que la

replicación del ADN, siempre ocurre en la dirección 5' a 3'.

Como los procariontes no tienen membrana nuclear, las moléculas de

ARN que se transcriben de los genes son inmediatamente traducidas a nivel de

los ribosomás para sintetizar las proteínas. En el caso de los eucariontes, los

ARN transcritos son transportados del núcleo al citoplasma, a través de la

membrana nuclear. Además, los genes de los eucariontes contienen intrones,

estructuras de ADN que interrumpen la región del gen que codifica para la

proteína (exón). Al transcribirse un gen en los núcleos de las células de los

eucariontes, el ARN resultante incluye tanto las regiones de los intrones como

las de los exones. Esta molécula de ARN se “procesa” para dar lugar al mARN

maduro que se exporta del núcleo de la célula al citoplasma, donde luego se

traduce en proteína.

La información genética contenida en cada molécula de mARN se

traduce en proteínas a través de un proceso enzimático que se realiza en los

ribosomás. En la traducción participan principalmente tres tipos distintos de

ARN: el ARN ribosomal (rARN), que junto con varias proteínas forman los

ribosomás; el ARN mensajero (mARN), que acarrea la información genética

contenida en genes específicos del ADN y los ARNs de transferencia (tARN),

que sirven como adaptadores específicos para cada aminoácido durante el

ordenamiento lineal de éstos en la síntesis de proteínas, conforme la secuencia

del mARN.

La síntesis de proteínas, que de facto es la traducción de la secuencia

de nucleótidos presentes en el mARN, se lleva a cabo mediante la

polimerización de aminoácidos en proteínas, a nivel de los ribosomás en

dirección 5' a 3'. La secuencia del mARN realiza la codificación en forma de

tripletes de bases (codones) de acuerdo con el código genético, incorporando

en cada paso de lectura un aminoácido de la proteína. Cada tARN tiene una

secuencia complementaria o anticodón para el codón del aminoácido, que le

permite reconocer el codón correcto sobre el mARN.

3.0 DESARROLLO HISTORICO

3.1 Secuenciación de ácidos nucleicos.

Inicialmente, se pensaba que la secuenciación de los ácidos nucleicos

era mucho más difícil que la de las proteínas, y muy poco progreso se hizo

hasta 1960. Esto se debió, en parte, a la falta de substratos puros del tamaño

adecuado, con los cuales desarrollar los métodos y en parte, a la composición

de los ácidos nucleicos. Se esperaba que la interpretación de los resultados de

la secuenciación de los ácidos nucleicos (cuatro monómeros) fuera más difícil

que el de las proteínas (20 aminoácidos), y se tendrían que aislar productos de

degradación más grandes para poder traslaparlos y deducir sus secuencias.

Por otro lado, el hecho de tener cuatro componentes solamente, se pensaba,

haría más fáciles los analices finales. Al inicio, la dificultad predominante fue la

interpretación de los resultados, pero a medida que las técnicas se fueron

mejorando y que se fueron estudiando moléculas más largas, la cuestión del

análisis empezó a ser más importante. Hoy, la secuenciación de ácidos

nucleicos es más rápida y simple que la secuenciación de proteínas.

La estrategia básica de la secuenciación de ácidos nucleicos es idéntica

a la que se utiliza en la secuenciación de proteínas. Ésta involucra:

1.- La degradación específica y el fraccionamiento de los polinucleótidos

de interés a fragmentos suficientemente pequeños para ser secuenciados.

2.- La secuenciación de los fragmentos pequeños.

3.- El ordenamiento de los fragmentos a través de la repetición de los

pasos anteriores, usando un procedimiento de degradación que produce una

serie de fragmentos de polinucleótidos que traslapan el punto de corte en la

primera serie.

El primer ácido nucleico en ser secuenciado fue el tARN Ala de levadura.

La secuencia de este nucleótido de 76 bases fue realizada por Holley y

colaboradores en siete años (Stewart y Letham, 1977). Ellos usaron métodos

de secuenciación similares a los que se usaban para secuenciar proteínas; la

hidrólisis parcial con enzimás y el fraccionamiento de los productos en

columnas de intercambio iónico. El grupo de Holley introdujo el uso de la

ribonucleasa T1 (de Aspergillus oryzae), la cual corta ARN después de residuos

de guanina y de la ribonucleasa pancreática A, que corta después de residuos

pirimídinicos.

Poco después, Frederick Sanger y sus colaboradores dirigieron sus

esfuerzos para desarrollar técnicas de fraccionamiento más rápidas y simples,

las cuales permitieron la secuenciación de ARN y luego de ADN. El grupo de

Sanger marcó el ARN con 32 P, y pudo detectarlo mediante autoradiografías.

Además, introdujeron un método más sencillo para fraccionar los

oligonucleótidos. Una técnica de separación bidimensional, con electroforesis

en acetato de celulosa, seguido de la electroforesis de intercambio iónico en

papel. Siguiendo este enfoque general, el grupo de Sanger desarrollo varios

métodos para estudiar los nucleótidos aislados (Sanger, 1988).

Uno de los métodos consistía en someter a los oligonucleótidos

digeridos con la ribonucleasa T1, a una digestión parcial con una exonucleasa

5´ y correr los productos en una electroforesis sobre papel de dietilaminoetil

(DEAE)-celulosa a pH 1.9. La degradación secuencial del extremo 5´ da una

mezcla de fragmentos, en donde todos tienen el mismo extremo 3´ pero

difieren en sus extremos 5´. En la electroforesis los fragmentos se ordenan por

tamaño, y de la posición relativa de dos bandas adyacentes es posible

identificar la naturaleza de los nucleótidos, por los cuales ellos difieren. Otro

método exitoso fue la técnica “correría de puntos” (“wandering spot”). Se

desarrolló un sistema bidimensional en el que primero se digería con una

exonucleasa y los fragmentos obtenidos se ordenaban de acuerdo a su

tamaño, de tal manera que cada punto difería del punto siguiente por un

nucleótido. El sistema fue arreglado para que las posiciones relativas de dos

puntos vecinos dependieran de los nucleótidos por los cuales diferían. El

método fue extendido para usarse con digestiones más complejas, pero no fue

posible distinguir la A de la G con absoluta certidumbre. Con estos métodos, se

secuenció el ARN ribosomal 5S de 120 residuos (Sanger, 1988). El arte de

secuenciar ARN por estás técnicas alcanzó su cenit en 1976, con la

secuenciación del genoma de 3,569 nucleótidos del bacteriofago MS2 por

Walter Fiers.

El principal problema con la secuenciación del ADN era su talla muy

larga; el ADN más pequeño que se encontraba disponible era el de genomas

de bacteriófagos de cadena simple, de cerca de 5000 nucleótidos, como el

øX174. Y éstos eran muy largos para poder secuenciarlos con los métodos que

existían hasta ese momento. Otra dificultad era la falta de enzimas de

restricción adecuadas. No existía una enzima con una especificidad análoga a

la de la ribonucleasa T1 para el ADN.

Alrededor de 1973, se usaron técnicas similares a las empleadas con el

ARN para secuenciar ADN, y se pudieron determinar unas pocas secuencias

de unos 50 residuos. Sin embargo, los métodos eran lentos y laboriosos, y

resultó obvio que si se iban a atacar secuencias vastas de materiales

genéticos, se necesitaba un nuevo enfoque. Una alternativa a la hidrólisis

parcial fue usar técnicas de copiado enzimático para la secuenciación. C.

Weissmann y sus colaboradores descubrieron que el bacteriófago Q_ tiene una

ARN polimerasa que copia su propio ARN y desarrollaron técnicas para marcar

el ARN y deducir su secuencia. La enzima obvia para copiar el ADN fue la ADN

polimerasa.

Un enfoque elegante para conseguir la digestión específica del ADN,

que pudo ser combinado con un procedimiento de copiado, fue sugerido por C.

Chamberlin en 1963. La técnica hace referencia a que en condiciones

normales los substratos de la ADN polimerasa son los desoxirribonucleósidos

trifosfatos, pero si se remplaza el magnesio por manganeso en el medio, se

pueden usar ribonucleósidos trifosfatos. Si la incubación se hace con un

ribonucleósido trifosfato, por ejemplo, el rCTP y tres desoxirribonucleósidos

trifosfatos, se puede construir una cadena de ADN con todos los dCs

remplazados por rCs. Estos enlaces son lábiles en soluciones alcalinas o

pueden ser digeridos con una ribonucleasa. De esta manera, se puede

preparar una digestión específica en C y otras digestiones similares para

escindir los otros residuos.

Por otra parte, la ADN polimerasa requiere un ADN de cadena sencilla

como templado y un iniciador o “primer”. Éste es un oligonucleótido que

contiene un extremo 3´ libre que es complementario con una cadena molde de

ADN y funciona como punto de inicio para la adición de nucleótidos. Sanger y

su grupo utilizaron como templado el ADN de cadena sencilla del bacteriófago

f1 y sintetizaron el iniciador con base en el método desarrollado por Khorana.

Como iniciador usaron un desoxirribonucleótido con una secuencia predicha a

partir de la secuencia de aminoácidos, ya conocida, de una proteína de la

superficie del bacteriófago. Con este método, pudieron determinar la secuencia

de 80 nucleótidos. Sin embargo, para poder sintetizar otros 80 residuos,

necesitaban hacer otro iniciador. Este procedimiento era todavía lento para

analizar muchos fragmentos.

Hasta el momento, Sanger y su grupo habían obtenido en sus

experimentos ADN altamente marcado, usando el substrato radioactivo con

una actividad específica alta y en bajas concentraciones. Ellos observaron que

cuando usaban 32 P-ATP, los productos de ADN formados se terminaban antes

de que se incorporara una A. Debido, presumiblemente, a que a la enzima le

faltaba ATP. Esto les sugirió un nuevo enfoque para secuenciar ADN. Si uno

puede producir una mezcla de fragmentos con el mismo extremo 5´ (que

corresponde al extremo 5´ del iniciador) y terminarlos en posiciones 3´

correspondientes a las A´s, la determinación de los tamaños relativos de todos

esos fragmentos debería producir una medida de la posición relativa de las

A´s. Esto, combinado con datos similares de los otros tres nucleótidos, es todo

lo que uno necesita para la determinación completa de una secuencia.

Paralelamente, se estudiaron otros métodos de fraccionamiento, y la

electroforesis en gel de acrilamida resulto ser la más eficiente. Con esta técnica

se pudieron separar nucleótidos de hasta 250 residuos de acuerdo a su

tamaño. En el gel, los fragmentos más pequeños migran más rápido que los

más grandes, y cada uno puede ser separado de sus vecinos, los cuales

difieren en tamaño sólo por un nucleótido. Después de introducir ligeras

modificaciones, desarrollaron el método del “más y menos”, con el que se

determinó la mayoría de la secuencia del bacteriofago øX174. Sin embargo, el

grupo de Sanger no tardaría en desarrollar un método más eficiente y

confiable: el enzimático, que se discute más adelante.

Después de 1975, se realizó un progreso dramático en la tecnología de

la secuenciación de los ácidos nucleicos. Tres avances hicieron esto posible:

1.- El descubrimiento de las endonucleasas de restricción, enzimás que

cortan ADN de cadena doble en secuencias específicas.

2.- El desarrollo de mejores técnicas de secuenciación de ADN.

3.- El desarrollo de técnicas de clonación que permitieron la adquisición

de un segmento de ADN en las cantidades necesarias para secuenciarlo.

En 1977, se reportaron dos protocolos para la secuenciación de ADN. El

primer método fue el de Maxam y Gilbert. Con este método, al igual que con el

de Sanger, se obtiene una autoradiografía en donde puede leerse una

secuencia. Sin embargo, se determina la secuencia de una molécula de ADN

utilizando químicos que cortan en posiciones específicas fragmentos marcados

en sus extremos 5´. El segundo método es el de Sanger. Éste utiliza un

templado de ADN de cadena sencilla para sintetizar la hebra complementaria,

la cual se termina en posiciones específicas. En los dos casos, la secuencia de

la molécula se determina por diferencias en los tamaños de los fragmentos

generados.

3.2 El método de degradación química (Maxam and Gilbert, 1977).

En este método, un fragmento de ADN de cadena doble o sencilla se

marca en los extremos 5´ o 3´ de una o ambas hebras con 32 P. Después,

la muestra de ADN se divide en cuatro alícuotas y se fragmenta en

cuatro reacciones químicas distintas. Posteriormente, los fragmentos de

ADN generados pueden ser separados por electroforesis en cuatro

carriles distintos con base en su tamaño. Conociendo el nucleótido en el

que se realizaron los cortes, se puede inferir la secuencia de la molécula

original (figura 4). Las reacciones químicas que se utilizan para

fragmentar la molécula de ADN son las siguientes:

1. Corte de las purinas. Las purinas adenina y guanina se metilan

con dimetil sulfato (DMS). Después, la reacción es tratada en

condiciones alcalinas; la molécula de ADN se fragmenta en las

purinas metiladas. Como resultado, se obtiene una serie de

bandas oscuras que corresponden a las guaninas (las cuales se

metilan 5 veces más rápido), y bandas claras que corresponden a

las adeninas. Para interpretar fácilmente el patrón de bandas

generadas, se puede comparar contra un tratamiento que

favorezca el corte de las adeninas.

2. Corte de adeninas. Esta reacción es una variación de la anterior.

Las purinas metiladas se tratan inicialmente con un ácido diluido.

Esto favorece el corte de las adeninas metiladas. Después de un

tratamiento alcalino las guaninas también son cortadas. Este

tratamiento genera una serie de bandas oscuras y claras que

también corresponden a las adeninas, y las guaninas,

respectivamente.

3. Corte de pirimidinas. Esta reacción utiliza el reactivo hidracina,

que corta las bases citosina y timina. Posteriormente, se trata con

piperidina para completar la reacción.

4. Corte de citosina. La presencia de NaCl 2M inhibe la reacción de

hidracina con tiamina, y el tratamiento posterior con piperidina,

produce solamente fragmentos que terminan en citosina.

Desde que se reporto este método, no se han encontrado reactivos

químicos específicos que corten las bases A o T, por lo que se utiliza la

estrategia de corte descrita en la figura 4. Esta estrategia permite distinguir

entre los nucleótidos que se encuentran al final de cada corte y deducir la

secuencia de ADN.

1 2 3 4

Figura 4. El método de Maxam y Gilbert para secuenciar ADN. Los números de los

carriles en el gel corresponden a los distintos tipos de corte que se describen en el

texto.

3.2.1 Ventajas y desventajas del método de degradación química.

La baja resolución obtenida cuando se reportó la técnica no se debió a

un factor inherente al método de Maxam-Gilbert, si no a una limitante de los

geles de acrilamida. En un inicio, se consideraba un logro poder diferenciar el

tamaño de 250 fragmentos y determinar la secuencia de ese tamaño. El

análisis de una secuencia en geles de acrilamida era complicado, ya que no se

podía separar los fragmentos grandes. Otro problema que comúnmente afecta

la resolución de las bandas obtenidas en el gel es el ensanchamiento de

bandas cuyas secuencias favorecen la formación de estructuras secundarias.

Para mejorar la resolución del gel se ha reportado que el uso de geles de

acrilamida muy delgados, en conjunto con un voltaje alto de corrimiento,

produce bandas más delgadas y mejor separadas (Sanger y Coulson, 1978).

Otro aspecto del método de Maxam-Gilbert que puede ser un poco

laborioso es la necesidad de separar y analizar individualmente las hebras del

ADN que se quiere secuenciar (Sanger et al., 1977). Esto se puede realizar

mediante enzimás de restricción (figura 5) que separen los extremos

etiquetados para el análisis. Alternativamente, las dos hebras marcadas

pueden ser desnaturalizadas y separadas en un gel (Maxam y Gilbert, 1977).

Hoy en día, el método más usado para la secuenciación de ácidos

nucleicos es el método de Sanger. Sin embargo, es justo decir que el método

de Maxam-Gilbert es el más adecuado para determinar la secuencia de

fragmentos cortos de ADN, debido a que puede determinar la secuencia desde

la primera base. En cambio, el método de Sanger sólo permite la lectura a

partir de la base 10-20 (Tahara et al., 1990).

Figura 5. Las enzimás de restricción reconocen secuencias

específicas de ADN y pueden ser utilizadas para separar las

hebras etiquetadas antes de secuenciar por el método de

Maxam-Gilbert.

3.3 El método enzimático (Sanger et al., 1977).

El método de secuenciación enzimático salió casi al mismo tiempo que

el de Maxam y Gilbert, pero ha sido más utilizado. Esto se debe, en gran

parte, a que se han realizado grandes avances en la automatización de

esta técnica, lo cual se discutirá más adelante. El método de Sanger se

basa en el uso de la ADN polimerasa para sintetizar cadenas de ADN

con una terminación específica. Con este método se generan

fragmentos de ADN de todos los tamaños posibles que se puedan

distinguir entre sí, por el tipo de marcaje que llevan o por la

incorporación de un terminador específico. Las enzimás del tipo de la

ADN polimerasa requieren de un templado de ADN de cadena sencilla, y

realizan la síntesis de la hebra complementaria extendiéndola a partir de

un iniciador en dirección 5’ a 3’. Entre los componentes de la reacción se

incluyen nucleótidos que no tienen un grupo hidroxilo en su extremo 3’

(ddNTP), para poder obtener una terminación especifica en las cadenas.

Una vez que el ddNTP se incorpora como el residuo terminal, evita que

la cadena de ADN sintetizada continúe extendiéndose. La incorporación

de los ddNTPs es al azar, de tal forma que se obtienen fragmentos de

todos los tamaños posibles que terminan en un residuo especifico.

En el método de Sanger (1977), la estrategia es hacer cuatro

reacciones diferentes de síntesis de ADN, utilizando un ddNTP distinto

en cada tubo. Con la mezcla del nucleótido normal (dNTP) y su

terminador (ddNTP), se pueden generar fragmentos complementarios de

diferentes tamaños que terminan en el mismo nucleótido. Después,

estos fragmentos se pueden separar en un gel de electroforesis con

cuatro carriles distintos, para determinar la secuencia del templado

(figura 6).

Figura 6. El método de Sanger. Cuatro reacciones con ddNTPs diferentes permiten

la síntesis de distintos fragmentos con una terminación específica. Estos

fragmentos se pueden separar por electroforesis y comparando los tamaños, se

puede determinar la secuencia del templado.

El método de Sanger tiene varias ventajas sobre el método de Maxam-

Gilbert (Blackburn y Gait, 1996). Las reacciones de secuenciación del método

enzimático se pueden realizar en unas horas, en cambio las del método de

Maxam-Gilbert tardan al menos un día. Las reacciones del método de Sanger

son más “puras”, con menos contaminantes que puedan afectar la resolución

del gel.

3.3.1 Limitaciones del método enzimático.

Cuando se reportó este método para la secuenciación de ADN, se usaba

el fragmento Klenow de la polimerasa I, y sólo un ciclo de síntesis (incubando a

37 ºC) para obtener fragmentos de distintos tamaños. Todos los fragmentos

tenían incorporados en sus cadenas, nucleótidos marcados con

21

32 P. El grupo

de Sanger reportó que con esta técnica se podía determinar una secuencia de

hasta 300 nucleótidos, a partir de 15 bases del iniciador, aproximadamente. Al

momento de publicar esta técnica, también reportaron que la mayor dificultad

era que los ddGTPs no estaban disponibles comercialmente. Desde entonces

se ha experimentado con variaciones del protocolo original y se han realizado

grandes avances en la automatización de este método. En la tabla 1 se

resumen algunos de los avances más importantes que han permitido el

desarrollo de métodos automatizados para la secuenciación de ADN.

4.0 MÉTODOS CONTEMPORÁNEOS EN LA SECUENCIACIÓN

4.1 Automatización del método de Sanger

En la tabla 1 se resumen algunos de los avances mas importantes que

han permitido el desarrollo de métodos automatizados para la secuenciación

de ADN (usando el método de Sanger).

Tabla 1. Descubrimientos significativos que permitieron el desarrollo de los

métodos automatizados de secuenciación de ácidos nucleicos.

Avance Descripción Referencia

Reacción en Técnica que permite la amplificación Mullis, 1990

cadena de la

polimerasa

(PCR)

exponencial de un fragmento de ADN

Polimerasa Taq Polimerasa termoestable que puede Innis et al., 1988;

utilizarse en el PCR

Carballeira et al.,

1990

Marcaje del El marcaje y el tipo de detección utilizado Prober et al.,

ADN para identificar los fragmentos de ADN

sintetizados

1987; Igloi, 1998

Secuenciadores Desarrollo de máquinas automatizadas Hunkapiller, et al.,

automatizados con la capacidad determinar la secuencia 1991; Lipshutz y

de miles de pares de bases por día

Fodor, 1994

4.1.1 La técnica de PCR y su relevancia en la secuenciación de ADN.

En 1985, el químico Kary Mullis desarrolló la técnica de la reacción en

cadena de la polimerasa (PCR). Este método permite la amplificación

exponencial de una molécula de ADN, generando millones de copias de un

fragmento. Esto se lleva acabo con oligonucleótidos que contienen un grupo

extremo 3´ libre, que es complementario con la cadena molde de ADN. Los

“oligos” funcionan como punto de inicio para la adición de nucleótidos y para

copiar la cadena molde en el PCR. Una vez que el oligonucleótido se une a su

blanco, la polimerasa de ADN puede seguir extendiendo la hebra

complementaria. En una reacción típica de PCR se usan dos oligonucleótidos

que flanquean la región de ADN que se desea amplificar. El número de copias

del fragmento de ADN que se encuentra entre los dos oligonucleotidos se

amplifica con varios ciclos de reacción.

Cada ciclo de una reacción de PCR

consta de tres pasos (figura 7):

1) Desnaturalización de las hebras

de ADN- El templado es el fragmento

de ADN que se desea amplificar, junto

con la región que reconocen los

oligonucleótidos. Para que el

oligonucleótido se pueda unir, es

necesario que el templado sea de

cadena sencilla. Así que este paso del

PCR es para separar las cadenas de

ADN, si el templado es de doble

cadena. Además, en este paso se

deshace cualquier tipo de estructura

secundaria formada entre los

segmentos complementarios de los

oligonucleótidos y que pudiera

interferir con su habilidad de unirse al

templado. Típicamente, la

desnaturalización del ADN se hace

con una incubación breve del tubo de

reacción a una temperatura de 94 ºC.

Figura 7. La reacción de PCR consiste en

varios ciclos de 3 pasos. Las

temperaturas y los tiempos indicados son

ejemplos y varían dependiendo de las

características del ADN que se desee

amplificar.

2) Temperatura de alineamiento - Esta temperatura se calcula con base en

las características de los oligos que serán utilizados. La temperatura a la cual

la mitad de los oligos están unidos a su blanco (Tm), se calcula tomando en

cuenta el tamaño de los oligos y su contenido de GC (%GC). Después de

desnaturalizar las hebras de ADN, se incuba a una temperatura cercana a la

Tm, para que los oligos puedan encontrar su región complementaria en el

templado. y se unan a ella.

3). Extensión de la cadena de ADN - Este es el último paso de un ciclo de

reacción de PCR y normalmente se hace a 72 ºC, la temperatura óptima para

la polimerasa de ADN. En este paso, la polimerasa extiende la cadena

complementaria del templado. La síntesis de la cadena complementaria tiene

como punto de inicio el complejo oligonucleótido/templado. El tiempo de

incubación de este paso depende del tamaño del segmento que se desea

amplificar. Como regla general se considera que la polimerasa puede sintetizar

1,000 bases por minuto. En la reacción de PCR, típicamente, se llevan acabo

de 30 a 40 ciclos de estos tres pasos, para lograr la amplificación deseada.

La técnica de PCR resultó relevante para la secuenciación de ácidos

nucleicos debido a que se adaptó al método de Sanger, de tal forma que se

puede sintetizar un mayor número de copias de los fragmentos con una

terminación específica. De esta forma, la señal del marcaje que lleva cada

fragmento aumenta, y es posible obtener lecturas más claras de los fragmentos

grandes, lo que a su vez, permite la lectura de secuencias más largas, una vez

que se pueda superar el problema de la resolución de los geles.

4.1.2 Polimerasa Taq.

Cuando se desarrolló el método de secuenciación de Sanger, se usó el

fragmento Klenow de la polimerasa I de E. coli para hacer la síntesis de los

fragmentos de ADN con una terminación específica (Sanger et al, 1977). En

1957, se aisló la Polimerasa I y durante muchos años se pensó que era la

única polimerasa que tenía E. coli (Brown, 1999). De hecho, su actividad es tan

grande que enmáscara la actividad de las otras polimerasas de esta bacteria, y

hasta que se obtuvó una mutante que no producía la polimerasa I (polA), fue

que se pudieron detectar las otras enzimás (Lewin, 1997). El uso de esta

enzima tiene algunas desventajas, en comparación con las polimerasas que se

aislaron de otros organismos, años después. La reacción de síntesis de ADN

reportada por Sanger en 1977, es de un solo paso, y en esta se tienen que

sintetizar todas las posibles combinaciones de fragmentos de ADN necesarios

para determinar la secuencia de un templado. La razón por la que la síntesis se

realiza en un solo paso se debe a que la temperatura óptima para la actividad

de Klenow es alrededor de 37 ºC (temperatura óptima de crecimiento de E.

coli). Por lo tanto, al elevar la temperatura para desnaturalizar los híbridos o

estructuras secundarias del ADN, se inactiva la Klenow, y es necesario añadir

más enzima para hacer un segundo ciclo de síntesis de fragmentos de ADN.

El uso de la Klenow para generar fragmentos de ADN en las reacciones

de PCR y para síntetizarlo en la secuenciación de ácidos nucleicos se fue

reemplazando con otras polimerasas más estables, aisladas de organismos

termófilos. Una de las polimerasas más conocidas, fue aislada de Thermus

aquaticus, y se le dio el nombre de Taq (Innis et al., 1988). Dedido a que esta

enzima es resistente a altas temperaturas, fue posible automatizar la reacción

de PCR, sin necesidad de añadir enzima nueva en cada ciclo de reacción. La

temperatura de extensión de las cadenas de ADN se realiza a 72 ºC, en lugar

de 37 ºC. Al hacer el alineamiento de los oligos a una temperatura más

elevada, se obtiene una mayor especificidad y homogeneidad en los

fragmentos generados para la reacción.

Las polimerasas termoestables que se caracterizaron a finales de los

80s contribuyeron a optimizar el método de Sanger para secuenciar ácidos

nucleicos. En ese tiempo, se reportó la purificación de polimerasas que podían

sintetizar hasta 1500 bases de ADN por minuto, y que mantenían su actividad

en un intervalo amplio de temperaturas elevadas (70-80 ºC) (Carballeira et al.,

1990). Con estas enzimás, por fin fue posible obtener fragmentos uniformes de

ADN de hasta 1000 bases y se pudo determinar una secuencia de este tamaño

(Innis et al., 1988).

4.1.3 Marcado de la cadena de ADN.

Se han explorado distintas maneras de marcar la cadena de ácidos

nucleicos sintetizados para la secuenciación de ácidos nucleicos por el método

de Sanger. Originalmente, se utilizaron nucleótidos marcados con 32 P en la

mezcla de síntesis y algunos de éstos se incorporaban en la cadena (Sanger et

al., 1977). Los nucleótidos incorporados al final de la cadena (ddNTPs) no

llevaban ningún marcaje ( 32 P), sólo carecían del grupo hidroxilo 3’ para evitar

que se siguiera extendiendo la cadena. Para poder resolver el orden de los

fragmentos sintetizados de esta forma, era necesario separarlos en un gel de

archilamida de cuatro carriles distintos y luego tomarle una radiografía para

detectar el marcaje ( 32 P). En los años siguientes, se exploraron otros tipos de

marcas que no fueran radioactivas para etiquetar estos fragmentos de ADN

(Igloi, 1998). Eventualmente, los fluoróforos fueron remplazando a los isótopos

radioactivos, como el método preferido de marcaje (Prober et al., 1987). La

razón de esto, es que marcar moléculas de ADN con isótopos radioactivos es

laborioso, tardado, peligroso y caro (Smith et al., 1985). Además, las

propiedades de las moléculas fluorescentes han contribuido al desarrollo de

técnicas automatizadas de secuenciación de ácidos nucleicos. Por ejemplo, la

posibilidad hacer todas las reacciones de terminación específica en un solo

tubo (Prober et al., 1987).

Existen muchas diferentes etiquetas para los fragmentos de ADN. Las

moléculas fluorescentes tienen varias propiedades que se adaptaron con cierta

facilidad hacia el desarrollo de métodos automatizados para la secuenciación

de ácidos nucleicos, y las limitaciones en su uso se han ido resolviendo. Por

ejemplo, se observó que una inconsistencia en la intensidad de la señal de los

distintos fragmentos, podía complicar la interpretación de la información que se

obtenía del detector (Bennett, 2003). Experimentando con distintos fluoróforos,

se han encontrado algunos que dan una señal constante y que se pueden

distinguir entre si con mayor facilidad (Rosenblum et al., 1997). También, se

observó que la modificación de los dideoxynucleótidos (ddNTPs) con algún

componente fluorescente, puede causar que la migración del fragmento de

ADN en un gel de acrilamida sea un poco distinta, y causar dificultad en la

interpretación de la secuencia. Prober et al. (1987) encontraron que era posible

usar cuatro etiquetas fluorescentes de la misma familia y que estaban

estructuralmente relacionados, pero con distintos rangos de absorción. La

similitud de estructura provoca que la influencia sobre la migración de los

distintos fragmentos sea mínima y facilita la interpretación de la secuencia.

Además, se ha intentado variar la proporción de nucleótidos que están

en la mezcla de reacción. Ansorge et al. (1990) encontraron que la polimerasa

T7 tiene preferencia por algunos nucleótidos. Observaron que si se usa una

proporción equimolar de cada ddNTP, marcado con una molécula fluorescente,

la magnitud de la señal que se obtiene es distinta, y se incrementa en el orden

ADN y no existen muchas posibilidades de que el marcaje interfiera con el

proceso enzimático de la síntesis. Sin embargo, en la práctica esta región ha

sido difícil de modificar enzimáticamente porque es muy inerte. Kempe et al.

(1985) reportaron que después de una incubación de 96 horas con ARN ligasa,

sólo pudieron modificar 20% del iniciador en el extremo 5’ con un marcador de

biotina.

2. Marcaje incorporado en la cadena- Se pueden incorporar nucleótidos

marcados a la cadena de ADN durante su síntesis, tal como lo hicieron Sanger

et al.(1997). Es importante que el marcaje no interfiera con la actividad de la

polimerasa que incorpora los nucleótidos a la cadena. Igloi (1998) reportó que

sólo dos de las polimerasas termoestables, utilizadas comúnmente en la

secuenciación, aceptan dNTPs fluorescentes como sustratos. A pesar de que

el marcaje de ADN fue el primero en reportarse, no se ha utilizado tan

ampliamente porque no tiene ventajas claras sobre los otros métodos.

3. Marcaje del nucleótido terminal- Este método de marcaje, claramente,

es el más sencillo y el mejor por varias razones. En este caso, el nucleótido

responsable de la terminación (ddNTP), es el que lleva la marca. Esto asegura

que todas las cadenas sintetizadas a partir de un templado, lleven incorporado

una sola marca en el mismo lugar (al final de la cadena, en el extremo 3’). De

esta manera, se obtienen fragmentos que producen bandas uniformes y cuyas

secuencias se pueden determinar más fácilmente. Sin embargo, esta no ha

sido la razón principal por la que este método ha sido el más popular. Una

ventaja adicional de tener el nucleótido terminal marcado, es que se pueden

usar nucleótidos terminales que lleven cuatro tipos distintos de marcaje (uno

diferente para cada nucleótido). Esto implica que las cuatro reacciones de

terminación específica (ddATP, ddCTP, ddGTP, y ddTTP) se pueden llevar

acabo en el mismo tubo, y ya no se tienen que hacer por separado (Prober et

al., 1987). Además, debido a que se puede determinar cual es el nucleótido

terminal de los fragmentos de ADN con base en su señal, es posible resolver la

secuencia de un templado con sólo un carril. Las bandas que se ven, emiten

una señal distinta, dependiente del nucleótido terminal incorporado. El hecho

de que las bandas puedan ser diferenciadas con un carril, elimina la variación

que puede ocurrir entre carriles. Además, si por alguna razón se produce

terminación inespecífica (en un dNTP), no se detecta el fragmento, porque no

lleva un ddNTP marcado al final. Hoy en día, este es el método que más se

utiliza para marcar las cadenas de ADN. Kelley (1994) reportó que la

información obtenida en las primeras 300 bases de la secuenciación, es más

precisa (98% contra 95%) utilizando terminadores (ddNTPs) que llevan una

marca fluorescente en lugar de iniciadores con una marca fluorescente.

4.1.5 Secuenciación automatizada

Los hallazgos de la década de los 80s (mejores polimerasas, PCR,

marcas fluorescentes) contribuyeron al desarrollo de máquinas automatizadas

capaces de determinar miles de bases de secuencia por día. Las primeras

máquinas de secuenciación salieron a finales de los 80s. En 1986, Smith et al.

reportaron una técnica de secuenciación automatizada, basada en la

terminación específica con cuatro diferentes fluoróforos. La mezcla de síntesis

se cargaba en un solo carril de gel, en tubo, y se usaba un detector óptico para

determinar la absorción de cada banda, casi al final del tubo. Esta información

pasaba directamente a una computadora y permitía obtener información

precisa de hasta 200 pares de bases (pb) de la secuencia. Sin embargo,

habían varias áreas que podían ser optimizadas para aumentar la longitud de

la secuencia obtenida: (1) el tamaño, diámetro y composición del gel

electroforético, (2) los reactivos para la reacción de secuenciación, (3) las

condiciones de electroforesis, (4) equipo óptico/electrónico de detección, (5) los

marcadores fluorescentes (Smith et al., 1986).

Posteriormente, se experimentó con el uso de una máquina que tenía un

detector óptico capaz de leer la información de cuatro carriles (Ansorge et al.,

1987). En este caso, se reportó que era posible obtener información precisa de

más de 400 pb, usando solo un marcador fluorescente y separando las cuatro

reacciones. Sin embargo, se reportó que a pesar de las aparentes ventajas del

uso de marcadores distintos y un carril de detección, era mejor separar las

reacciones para que los resultados no se vieran afectados por las diferencias

(causantes de variación en la migración electroforética) o similitudes (espectros

de absorción traslapados) entre los marcadores (Ansorge et al, 1987).

Ansorge et al. (1988) reportaron el primer protocolo que usaba

marcadores fluorescentes en lugar de isótopos radioactivos para el método de

secuenciación de Maxam-Gilbert. Utilizaron un marcador que no interfería con

la degradación de la molécula de ADN y lograron secuenciar 50

oligonucleótidos de 20 bases cada uno, en un sólo gel. En este reporte, los

autores demuestran que también es factible automatizar el método de Maxam-

Gilbert usando fluoróforos. Sin embargo, en los años siguientes no hubo

muchos avances en esta área, ya que el desarrollo de las técnicas

automatizadas de secuenciación se enfocó principalmente en mejorar el

método de Sanger.

En 1994, se reportó el uso de la polimerasa termoestable “SequiTherm”,

que es capaz de sintetizar fragmentos grandes con terminación específica.

Esto permitió determinar hasta 1000 bases de una secuencia por reacción

(Zimmmerman et al., 1994). Esto fue un gran hallazgo, porque a pesar de los

avances en la automatización de la secuenciación la información que se

obtenía después de unas 400 bases de secuencia era difícil de interpretar y

susceptible a error. La excepción eran reacciones de secuenciación utilizando

la polimerasa T7, con la cual era posible obtener hasta 700 bases de

secuencia con 99% de precisión, pero esta tenia la desventaja de no ser

termoestable (Ansorge et al., 1990; Church et al., 1994).

4.1.6 El desarrollo de máquinas de secuenciación

Después de que Smith et al. (1986) reportaron el uso de la primera máquina

automatizada que usaba un detector óptico para obtener la información de

secuenciación (la cual pasaba directamente a una computadora). Se empezó a

experimentar con otros equipos y variaciones de la técnica de secuenciación

con el objetivo de mejorar el rendimiento con estas máquinas.

a) Secuenciadoras basadas en geles tipo “slab”--Estas secuenciadoras

usan un gel vertical para separar los fragmentos generados durante la

reacción de secuenciación y tienen distintos sistemas de detección para

leer el orden de los marcadores fluorescentes. Meldrum (2000) hace una

comparación de algunas propiedades de las máquinas comerciales más

comunes que salieron en los 1990s:

ABI PRISM 377 _ Esta secuenciadora salió a finales de los 80s. Se

basaba en el uso de un carril para detectar cuatro marcadores

fluorescentes distintos. Usa una cámara CCD y es capaz de leer hasta

200 bases por muestra por hora. Se pueden cargar hasta 96 muestras

en un solo gel y éstos se detectan simultáneamente.

ASTRAL _ Esta máquina usa un láser de Argón para iluminar las

muestras lateralmente. Puede detectar más de cuatro marcadores

distintos por muestra y es capaz de acomodar hasta 96 muestras por

gel. En un experimento típico se pueden obtener 300 bases de

secuencia por muestra en un tiempo de 7-8 hrs.

LI-COR Modelo 4200 _ Esta máquina salió en 1997 y tiene un sistema

de análisis que detecta una longitud de onda cercana al infrarrojo. Esta

máquina es capaz de detectar los productos de 2 reacciones de

secuenciación simultáneos y bidireccionales, produciendo 2 veces más

información de cada reacción de secuenciación. Tiene 64 carriles y se

producen secuencias de hasta 1000 bases de cada extremo del

templado con una precisión del 99%.

Había mucho interés en reducir el tiempo requerido para obtener los

datos de secuenciación, dado que esto era uno de los pasos limitantes

para completar proyectos de secuenciación. La compañía MJ Research,

Inc. introdujo una máquina en 1998 que llamaron el sistema “HUGE”.

Ésta se basaba en el uso de un gel horizontal de poliacrilamida ultradelgado

(75 µm); Tenía 96 carriles y podía leer 450 bases por carril en

90 minutos (Meldrum, 2000) . Este aparato se superó en 1999, cuando

se introdujo el secuenciador “Clipper”, desarrollado por la compañía

Visible Genetics, Inc. Éste era capaz de secuenciar 400 bases en 30

minutos en un gel de poliacrilamida con un grosor de 50 µm, o 1000

bases en menos de cuatro horas (Yager et al., 1999).

b) Secuenciadoras basadas en electroforesis capilar- El segundo tipo de

secuenciadoras automáticas se basaba en un sistema capilar para hacer

la separación de los fragmentos de distinto tamaños. Los capilares se

caracterizan por tener un diámetro pequeño (≈200 µm) y permiten hacer

una separación rápida de alta resolución sin calentar la muestra (Huang

y Mathies, 1994). Por mucho tiempo, esta técnica de separación se vio

limitada por el problema de cómo detectar múltiples capilares sin tener

que usar múltiples detectores. Por lo tanto, a pesar del beneficio de que

la separación capilar es muy rápida (1-2 horas con excelente resolución),

no podía competir con las secuenciadoras que separaban las muestras

en un gel tipo “slab” (Huang y Mathies, 1994; Behr et al., 1999). En

1994, Huang y Mathies reportaron el uso de un aparato con un sistema

de detección paralelo de dos fluoróforos que podía leer la información de

25 capilares simultáneamente. Esta máquina era aproximadamente 10

veces más rápida que las secuenciadoras típicas de geles tipo “slab”.

Pronto empezaron a salir otras secuenciadoras automáticas que usaban

separación por electroforesis capilar, con sistemas de detección

paralelos (figura 8) para multiples capilares, por ejemplo:

CEQ 2000 (Evans, 2000) _ Esta secuenciadora tiene ocho capilares con

un detector de cuatro colores. Los pasos para preparar el gel, i.e., la

desnaturalización de la muestra y la carga, son automatizadas. Este

sistema es capaz de determinar 500 bases de secuencia de cada capilar

en 2 horas, o leer hasta 96 muestras automáticamente en un día.

Secuenciadora MCE (Behr et al., 1999) _ Esta secuenciadora se

desarrolló en el Instituto Max-Planck. Tiene una detección paralela de 96

capilares (Figura 8) y es capaz de procesar 15,000 muestras sin

intervención humana.

Figura 8. Esta secuenciadora tiene un detector paralelo capaz de leer la información

de 96 capilares simultáneamente. Luz de un láser de Argón se guía por una fibra

óptica (Fi) hasta el generador (PI) que distribuye la luz de forma uniforme por todos

los capilares.

MegaBACE 1000 _ Esta máquina también tiene 96 capilares y es posible

obtener secuencias hasta de 800 pares de bases por corrida (Meldrum, 2000)

ABI PRISM 3700 _ Esta es la secuenciadora que se utiliza en el Instituto de

Biotecnología de la UNAM (figura 9). Puede detectar 5 marcadores

fluorescentes distintos y correr 24 horas sin intervención humana. Cuenta con

96 capilares (y 8 de reserva) y se puede recargar hasta cuatro veces

automáticamente. Se pueden hacer hasta 500 corridas sin necesidad de

cambiar los capilares. Cada corrida dura aproximadamente 2.5 hrs y detecta un

promedio de 550 bases por reacción de secuenciación (Meldrum, 2000).

Figura 9. La secuenciadora ABI PRISM 3700. Es el aparato que actualmente se tiene

en el IBt-UNAM. Hay una segunda máquina en el Centro de Investigación sobre

Fijación de Nitrogeno (CIFN-UNAM). Puede correr 768 reacciones de secuencia sin

atención técnica en 36 horas. La longitud de las lecturas obtenidas es de un

promedio de 600-700 bases” (kinish.cifn.unam.mx/~retligen/infrastructura.htm).

4.2 Secuenciación de ARN

Paralelo al desarrollo de los métodos de secuenciación de ADN, también

se reportaron avances en la secuenciación de ARN. Desde que Holley

secuenció un tARN para Alanina en 1965, se han desarrollado métodos de

secuenciación de ARN similares a los utilizados para secuenciar ADN

(Blackburn y Gait, 1996). Básicamente, los métodos de secuenciación de ARN

se dividen en 2 categorías.

4.2.1 Métodos indirectos

En este caso, el ARN se convierte primero a cADN con la enzima transcriptasa

reversa y luego se usa el fragmento obtenido como templado para la reacción

de secuenciación. En realidad, este método determina la secuencia de una

molécula de ADN a partir de la cual se infiere la secuencia de la molécula de

ARN. Este método indirecto es uno de los más comunes para la secuenciación

de ARN porque tiene todas las ventajas de la secuenciación de ADN.

4.2.2 Métodos directos

Estos métodos se utilizan para secuenciar la molécula de ARN cuando es

complicado utilizar el método indirecto (Igloi, 1998). Esto suele suceder con

ARNs muy pequeños, o con estructuras secundarias extensas (ribosomales,

transferencia). Todas estas técnicas requieren de que el ARN este en forma

pura.

a) Método enzimático-- En los primeros reportes se experimentó con una

forma enzimática para secuenciar ARN directamente. En este caso,

los autores Brownlee y Cartwright (1977) reportaron los resultados de

la secuenciación de una molécula de mARN de casi 200 pb.

Utilizaron un iniciador marcado con 32 P y la transcriptasa reversa.

Usando reacciones similares a las del método de Sanger, los autores

generaron fragmentos de cADN con una terminación específica dada

por ddNTPs. Después, resolvieron el orden de los fragmentos de

ADN generados en un gel de acrilamida. Se ha visto que la

concentración del ARN templado influye mucho en la resolución del

gel. Los autores Carpenter y Simon (1990) reportaron que cuanto

mayor era la cantidad de ARN viral usado como templado, menor era

la resolución obtenida en el gel de acrilamida debido a que las

bandas eran anchas, complicando la interpretación del orden. Ellos

obtuvieron la mejor resolución utilizando 0.4 µg (0.75 pmol) de ARN

como templado. En una reacción de secuenciación de rARN, Bakin y

Ofengand (1992) obtuvieron la mejor resolución empleando 10 veces

menos ARN, es decir, solamente 0.13 pmol.

A pesar de que se generan fragmentos de ADN, el método

enzimático es un método directo porque el templado es una molécula

de ARN. La marca se puede incorporar a los fragmentos de ADN de

maneras alternativas a la usada por Brownlee y Cartwright en 1977.

El uso de ddNTPs marcados tiene la ventaja de que los fragmentos

que sufren una terminación prematura no se detectan ni interfieren

con la interpretación de la secuencia. La terminación prematura suele

ser un problema más común en la secuenciación de ARN por la

formación de estructuras secundarias que interfieren con la actividad

de la transcriptasa reversa. Además, la síntesis de fragmentos de

ADN a 37 ºC carece de las ventajas de las altas temperaturas que se

pueden usar con otras enzimas (polimerasa Taq).

) Método químico-- En 1977 se presentó un método de ruptura química

del ARN similar al de Maxam y Gilbert (Donis-Keller et al., 1977). La

molécula de ARN (en este caso ARN ribosomal) se marca con una

molécula de 32 P en un extremo. Después se utilizaron nucleasas para

hacer digestiones de la molécula de ARN marcado en distintos

lugares. La RNAsa T1 corta las guaninas, la RNAsa U2 corta las

adeninas y una hidrólisis alcalina rompe todos los enlaces

fosfodiéster (Donis-Keller et al., 1977). Se utiliza un gel de acrilamida

para separar los fragmentos de estos tres tipos de ruptura, lo que

permite determinar el orden de las guaninas, adeninas y pirimidinas

de una molécula de ARN ribosomal.

A diferencia del método enzimático, en el que se puede usar un

iniciador marcado para generar los fragmentos que serán

secuenciados, el método químico requiere que la molécula de ARN

sea marcada directamente. Esto se puede hacer introduciendo una

marca de 32 P en el extremo 5’ de la molécula con una cinasa T4, o en

el extremo 3’ con una ligasa T4 (Blackburn and Gait, 1996).

4.3 Resumen de enzimas usadas en la secuenciación de ácidos

nucleicos.

En la tabla 2 se resumen algunas de las enzimas mas comunes utilizadas

en la secuenciación de ácidos nucleicos. Estas enzimas eran entre las

primeras herramientas en la biología molecular y se aprovecharon sus

actividades naturales en la secuenciación de los ácidos nucleicos.

Tabla 2- Algunas de las enzimas que han tenido un papel importante en el

desarrollo de los métodos de secuenciación

Enzima Función Referencia

Fragmento Una polimerasa de ADN que utilizo Sanger en su reacción Sanger et

Klenow de secuenciación. No es termoestable.

al., 1977

T7 Una polimerasa de ADN no termoestable que se utilizaba (Ansorge et

frecuentemente en las reacciones de secuenciación con el

Método Sanger. Se utilizaba frecuentemente para

incorporar terminadores (ddNTPs) etiquetadas con un

fluoroforo.

al., 1990)

Taq

Una polimerasa termoestable aislada de T. aquaticus Innis et al.,

polimerasa (termofilo). Fue una gran herramienta en el desarrollo de

la técnica de PCR.

1988

Enzimas de El primero fue aislado de E. coli en 1968 por Matthew

restricción Meselson y Robert Yuan. Son nucleasas que reconocen y

cortan secuencias específicas de ADN (doble cadena). Se

utilizan en el método de degradación química para aislar

los fragmentos ( 32 Maxam y

Gilbert,

P) que serán secuenciados.

1977

Transcriptasa Una polimerasa de ADN que sintetiza una cadena de ADN Brownlee y

reversa utilizando una molécula de ARN como templado

Cartwright,

1977

RNAsa T1 La RNAsa T1 corta las moléculas de ARN (cadena sencilla) Donis-Keller

en las guaninas.

et al., 1977

RNAsa U2 RNAsa U2 corta las moléculas de ARN (cadena sencilla) Donis-Keller

en las adeninas.

et al., 1977

RNA ligasa Se utiliza para unir una marca radioactiva (

32

P) en el Blackburn y

extremo 5’ de la molécula de ARN (cadena sencilla). Gait, 1996

Cinasa T4 Se utiliza para unir una marca radioactiva ( 32 P) en el Blackburn y

extremo 3’ de la molécula de ARN (cadena sencilla). Gait, 1996

5.0 ESTRATEGIAS Y APLICACIONES DE LA SECUENCIACIÓN DE

ÁCIDOS NUCLEICOS

5.1 Proyecto de secuenciación del genoma humano

Uno de los factores principales que motivó el desarrollo de la tecnología

de las secuenciadoras automáticas fue el proyecto de secuenciación del

genoma humano. Tal vez ningún proyecto de secuenciación genómica ha

recibido tanta atención como éste, concebido en Estados Unidos en 1988

(Olson, 1993). En ese tiempo, la tecnología de secuenciación automatizada

estaba en sus primeras etapas de desarrollo, y era muy ambicioso intentar

secuenciar un genoma de miles de millones de pb. Sin embargo, el comienzo

de este proyecto se anunció oficialmente en 1990 por los departamentos de

Salud y Energía con un presupuesto de 3 mil millones de dólares y la meta de

completar la secuencia en 15 años (Venter et al., 2001).

¿De qué nos sirve la información de la secuencia de un genoma? De una

forma muy general, los objetivos principales del proyecto de secuenciación del

genoma humano eran los siguientes (Olson, 1993):

a) Mejorar la infraestructura de la investigación genética - La secuencia

del genoma humano permitiría la ampliación del conocimiento

genético de nuestro organismo. Se pueden utilizar técnicas como el

PCR para analizar detalladamente ciertos segmentos del genoma.

Conociendo su secuencia, se pueden diseñar oligonucleótidos que

reconocen y se unen a secuencias complementarias en el ADN.

b) Comparar el papel de una secuencia de ADN en los humanos y en

los organismos modelo – Se pueden comparar las secuencias de los

genes identificados en el genoma humano con los genes de otros

organismos y conocer el grado de similitud o diferencia que existe

entre dos especies. También se puede inferir la función de ciertos

genes con base en los conocimientos de otro gen similar, identificado

en otro organismo.

c) Mejorar la bioquímica analítica del ADN - Este era el reto más grande

cuando se anunció el inicio del proyecto de secuenciación del

genoma humano, ya que se refería a mejorar las herramientas para

el análisis de ADN. Éste era un reto técnico, ya que para obtener la

secuencia completa del genoma humano en el tiempo propuesto era

necesario desarrollar la estrategia y las máquinas de secuenciación

con capacidad de secuenciar dos Mpb por año.

La secuencia del genoma humano se reportó en el 2001, cuatro años antes de

la fecha prevista (Venter et al., 2001). Esto se debe en parte a los esfuerzos de

más de 20 grupos internacionales que colaboraron para completar la

secuencia, y a los avances en la tecnología de las secuenciadoras automaticas

(la mayor parte de la secuencia se obtuvo con máquinas ABI PRISM 3700;

figura 9). Pero la razón principal por la que se logró completar la secuencia fue

un cambio en la estrategia de secuenciación (Internacional Human Genome

Sequencing Consortium, 2001). La necesidad de tener una buena estrategia

para secuenciar fragmentos grandes de ADN (e.g, un cromosoma), fue

evidente en el proyecto de secuenciación del genoma humano.

5.2 Estrategias para la secuenciación de fragmentos grandes de ADN.

5.2.1 “Chromosome Walking”

Hay dos estrategias generales para secuenciar fragmentos grandes de

ADN. La primera se llama caminata cromosomal “chromosome walking”

(Brown, 1999; figura 10) y consiste en lo siguiente: (1) la fragmentación parcial

del ADN para su inserción en un vector de clonación; (2) la obtención de un

banco de clonas de fragmentos que contienen segmentos que se traslapan y;

(3) la secuenciación de una clona y la identificación de una segunda que posea

la continuación del segmento que se está secuenciando. Este proceso se

repite hasta que se completa la secuencia de la molécula original de ADN (e.g.,

un cromosoma).

Esta estrategia se utilizó originalmente en el proyecto de secuenciación

del genoma humano. Tiene la ventaja de que se asegura la obtención de la

secuencia completa de la molécula original de ADN. En teoría, no se requiere

hacer secuenciación redundante; sin embargo, tiene varias desventajas que

afectan el tiempo y el costo de un proyecto de secuenciación. Primero, cada

clona se tiene que analizar individualmente y en serie. No se puede secuenciar

la siguiente clona hasta no conocer la primer secuencia. Segundo, se requiere

la síntesis de un enorme número de iniciadores para continuar la

secuenciación. Suponiendo que cada iniciador empleado es único y sirve para

secuenciar sólo una parte de una clona particular, se requiere sintetizar de 5 a

10% de la secuencia total (Cantor y Smith, 1999). Tomando esto en cuenta, no

es sorprendente que hasta 1998 sólo se había secuenciado el 5% del genoma

humano (Venter et al., 2001). Era necesario un cambio de estrategia para

completar la secuencia del genoma humano en el tiempo previsto.

Figura 10. La estrategia “chromosome walking” permite determinar la secuencia de

un fragmento enorme de ADN ensamblando muchas secuencias pequeñas de

distintas clonas (www.bio.miami.edu/dana/250/25003_10.htm).

5.2.2 “Shotgun Sequencing”

La segunda estrategia general para la secuenciación de fragmentos grandes

de ADN, se llama secuenciación tipo “shotgun” (figura 11). La gran diferencia

entre esta estrategia y la anterior es que en el “shotgun” la secuenciación se

hace a partir de fragmentos al azar. Después, se utiliza un programa de

cómputo para encontrar las regiones que se traslapan entre las secuencias

individuales. Así se va ensamblando la secuencia del fragmento original

(Brown, 1999). Esta estrategia de secuenciación tiene la ventaja de que es

rápida, requiere la síntesis de pocos iniciadores, y tiene una eficiencia

comprobada (Cantor y Smith, 1999). Una de las desventajas de esta estrategia

es que requiere la redundancia de las secuencias para asegurar la obtención

de una muestra completa del ADN original. Otra desventaja es que se requiere

mucha tecnología computacional para ensamblar la secuencia original y que a

veces quedan “gaps” (regiones del fragmento original que no se secuenciaron).

Utilizando esta estrategia de secuenciación, es necesario secuenciar al menos

5 veces el ADN original para poder lograr un muestreo completo (Venter et al.,

2001). Tal vez, esta razón es suficiente para explicar la resistencia durante

tanto tiempo para la realización del proyecto del genoma humano,

considerando que es un genoma al menos 25 veces más grande que cualquier

otro genoma ya secuenciado (Internacional Human Genome Sequencing

Consortium, 2001). Aun cuando Weber y Myers (1997) presentaron un plan

para terminar la secuenciación del genoma humano con esta estrategia,

demostrando que sería más rápido y menos costoso, su propuesta no fue bien

recibida.

Figura 11. En la estrategia “shotgun” se secuencian fragmentos al azar y luego

usando un programa computacional se encuentran las regiones que se traslapan

para determinar la secuencia del fragmento original

(http://www.bioteach.ubc.ca/Bioinformatics/GenomeProjects/shotgun%201.gif).

En 1998 se fundó la compañía de biotecnología Celera Genomics, con el

propósito de completar el proyecto de secuenciación del genoma humano

utilizando la estrategia “shotgun” (Myers, 1999). La validez de esta estrategia

fue establecida en el 2001 cuando Venter et al. (investigadores de Celera

Genomics) reportaron que habían completado la secuenciación del genoma

humano en menos de un año.

Al conocerse la secuencia del genoma humano se hicieron varios hallazgos

importantes (Venter et al., 2001; Internacional Human Genome Sequencing

Consortium, 2001):

a) El genoma está compuesto por 1% de exones, 24% de intrones y 75% de

regiones intergénicas.

b) Hay entre 30,000 y 40,000 genes que codifican para proteínas.

c) Se han identificado más de 2.1 millones de polimorfismos de un solo

nucleótido (SNPs) en el genoma. Éstos ocurren más o menos uno de cada

1300 bases.

Si se secuencia una región del genoma de dos individuos, se encontrará que

son 99.3% idénticos. En gran parte, las diferencias son cambios de una sola

base conocidos como SNPs; se encontraran las dos alternativas en más de 1%

de la población (Chiche et al., 2002). Dado que muchas enfermedades

genéticas están asociadas a variaciones pequeñas como los SNPs, hay interés

en utilizar la información del proyecto del genoma humano para identificar los

SNPs responsables de ciertas enfermedades (Tang et al., 2004).

5.3 Otras aplicaciones

El avance en la secuenciación de los ácidos nucleicos ha sido una herramienta

que ha generado muchos conocimientos en el campo de la genómica. Hasta el

2001 se habían reportado los genomas completos de 599 virus, 185 organelos,

31 eubacterias, 7 arqueobacterias, un hongo, dos animales y una planta

(Internacional Human Genome Sequencing Consortium, 2001). Las

ramificaciones de tener esta información son innumerables, y su valor

incalculable. Entre otras cosas, nos ha permitido entender cómo se asocian las

enfermedades con la variabilidad genética, la función de genes caracterizados

en otros organismos, el patrón de expresión de genes nuevos, el aislamiento

de genes específicos por PCR, la similitud o variación genética entre especies

diferentes, la organización de la información genética, el origen de algunos

genes, etc. Hay cientos de ejemplos de cada una de estas categorías. Tal vez,

lo que sea más importante recordar es que no parece haber límite en las

aplicaciones de la información que se obtiene de la secuenciación de los

ácidos nucleicos. Gracias a esta información, se han logrado avances en la

investigación de áreas como la medicina, la química, la biología molecular, la

sistemática, la proteómica, y mucho más.

6.0 El FUTURO DE LA SECUENCIACION

6.1 Secuenciación por hibridización

Entre otras cosas el conocimiento de la secuencia de los genomas o los

genes de los organismos también ha permitido desarrollar nuevos métodos de

secuenciación. Como reportan Isaksson y Landegren (1999) uno de estos es

la secuenciación por hibridización. Una forma en la cual puede funcionar este

método es utilizando “microarrays”. Estos son soportes pequeños en los

cuales se imobilian pequeños fragmentos de ADN en un orden conocido.

Después se pasa la muestra de ADN (con secuencia desconocida) y se

cuantifica el grado de hibridización, y por consecuencia el grado de identidad

con las secuencias fijas en el soporte (Cantor y Smith, 1999). Esto parece

funcionar especialmente bien en la identificación de SNPs. Wang et al. (1998)

reportaron que es posible identificar el genotipo de un individuo analizando 500

SNPs a la vez en un experimento de hibridización con un “microarray” de

oligonucleotidos. Una posibilidad para la secuenciación de acidos nucleicos a

futuro, que discuten los autores Cantor y Smith (1999) es el hacer hibridización

contra oligonucleotidos que formen palabras de tal forma que se pueda ir

determinando la secuencia sobrelapando los fragmentos (de 6-8 nucleótidos)

con los cuales híbrida el fragmento secuenciado (Figura 12).

Figura 12. La forma en la cual se puede utilizar hibridización para secuenciar. La

molécula de ADN se hibridiza contra pequeños oligonucleotidos que son como

“palabras”. Después, se determina la secuencia.

6.2 Secuenciación a futuro sin fragmentación de ADN

Los autores Cantor y Smith (1999) presentan algunas posibilidades de cómo

puedan evolucionar los métodos en la secuenciación de acidos nucleicos. Las

posibilidades se discuten en función de que poder secuenciar moléculas

individuales de ADN sin fragmentarlos en segmentos. Por ejemplo, usar

moléculas de ADN fijas a un soporte que se van degradando con una

exonucleasa y algún detector que determine cuales son los nucleótidos que se

van liberando (Cantor y Smith, 1999). Una segunda posibilidad es utilizar

microscopia electronica para determinar la secuencia de acidos nucleicos en

una molécula de ADN. Esto se podría hacer tal vez marcando las bases

individuales con algún metal pesado.

Ninguno de estos dos métodos se ha implementado por dificultades en

los detalles (Cantor y Smith, 1999). En el primer caso hay dos complicaciones:

como marcar cada base con alguna etiqueta como un fluoroforo, y tener un

detector suficientemente sensible que sea capaz de detectar un solo nucleótido

marcado. En el segundo caso (microscopia electronica), no se pudo marcar

cada base con algún metal sin tener reacciones laterales no deseadas (con

otras bases la molécula de ADN). Sin embargo, tal vez a futuro, se logren

resolver estas dificultades, o se descubran otras alternativas eficientes para

hacer la secuenciación de moléculas individuales de ADN.

7.0 REFERENCIAS

Ansorge, W., B. Sproat, J. Stegemann, C. Schwager and M. Zenke (1987)

AutomatedDNA sequencing: ultrasensitive detection of fluorescent bands

during electrophoresis. Nucleic Acids Res 15(11): 4593-4602

Ansorge, W. A. Rosenthal, B. Sproat, C. schwager, J. Stegemann and H. Voss

(1988) Non-radioactive automated sequencing of oligonucleotides by

chemical degradation. Nucleic Acids Res 16(5): 2203-2206

Ansorge, W., J. Zimmerman, C. Schwager, J. Stegemann, H. Erfle, and H. Voss

(1990) One label, one tube, Sanger DNA sequencing in one and two

lanes on a gel. Nucleic Acids Res 18(11): 3419-3420

Bakin, A. and J. Ofengand (1992) A high sensitivity method for sequencing

RNA: application to ribosomal RNA. BioTechniques 13(5):682-683

Behr, S., M. Matzig, A. Levin, H. Eickhoff, C. Heller, (1999) A fully automated

multicapillary electrophoresis device for DNA analysis. Electrophoresis

20: 1492-1507

Bennet, P. (2003) DNA sequencing and the human genome Project. Molecular

Biology In Cellular Pathology. John Wiley & Sons, Ltd pp. 308-328

Blackburn, G. M. and M. Gait (1996), Nucleic Acids in Chemistry and Biology,

2 nd Ed., Oxford, U. Pr., NY, EUA.

Brown, T.A. (1999) Genomes. Bios Scientific Publishers, Ltd. John Wiley &

Sons, Inc, New York, USA. pp. 59-82

Brownlee, G. and E. Carterwright (1977) Rapid gel sequencing of RNA by

primed synthesis with reverse transcriptase. J Mol Biol 114: 93-117

Cantor, C. and C. Smith (1999) Genomics: The science and technology behind

the human genome project. John Wiley & Sons, Inc.

Carballeira, N., M. Nazabal, J. Brito, O. Garcia (1990)Purification of a

thermostable DNA polimerase from Thermus thermophilus HB8, useful in

the polymerase Chain reaction. BioTechniques 9(3): 276-281

Carpenter, C. and A. Simon (1990) Simplified RNA sequencing using dideoxy

chain termination. BioTechniques 8(1): 26-27

Chiche, J., A. Cariou, J. Mira (2002) Bench-to-bedside review: Fulfilling

promises of the human genome project. Critical Care 6(3): 212-215

Church, G. G. Gryan, N. Lakey, S. Kieffer-Higgins, L. Mintz, M. Temple, M.

Rubenfield, L. Jaehn, H. Ghazizadeh, K. Robison, and P. Richterich

(1994) Automated multiplex sequencing. Chapt 2. Automated DNA

sequencing and analysis. Edit. Adams, M. C. Fields, J. Venter. Academic

Press, Inc. SD, USA. Pp. 11-16

Donis-Keller, H. A. Maxam, and W. Gilbert (1977) Mapping adenines, guanines,

and pyrimidines in RNA. Nucleic Acids Res 4(8): 2527-2538

Evans, T. (2000) Engineering in genomics. Developing and commercializing a

DNA sequencer. IEE EMB 19(4): 117-120

Huang, X. and R. Mathies (1994) Application of capillary array electrophoresis

to DNA sequencing. Chapt 3. Automated DNA sequencing and

analysis. Edit. Adams, M. C. Fields, J. Venter. Academic Press, Inc.

SD, USA. Pp. 17-28

Hunkapiller, T., R. Kaiser, B. Koop, and L. Hood (1991) Large-scale and

automated DNA sequence determination. Science 25: 59-67

Igloi, G. (1998) Strategies for introducing non-radioactive labels during the

automated Sequence analysis of nucleic acids. Elec J Biotech 1(1): 23

30

Innis, M., D. Myambo, D. Gelfand, and M. Brow (1988) DNA sequencing with

Thermus aquaticus DNA polymerase and direct sequencing of

polymerase Chain reaction-amplified DNA. Proc Natl Acad Sci, 85:9436

9440

International Human Genome Sequencing Consortium (2001) Initial sequencing

and analysis of the human genome. Nature 409: 860-921

Isaksson, A. and U. Landegren (1999) Accessing genomic information:

alternatives to PCR. Curr Opin Biotechnology 10: 11-15

Kelley, J. (1994) Automated Dye-terminator DNA sequencing. Chapt 26.

Automated DNA sequencing and analysis. Edit. Adams, M. C. Fields, J.

Venter. Academic Press, Inc. SD, USA. Pp. 175-181

Kempe, T., W. Sundquist, F. Chow, and L. Hu (1985) Chemical and enzymatic

biotin-labeling of oligodeoxyribonucleotides. Nucleic Acids Res 13:45-57

Levine, J., Suzuki, D. El secreto de la vida. Dirección General de Divulgación

de la ciencia, UNAM, México (2000).

Lewin, B. (1997) Genes. Oxford University Press, Inc. New York. Pp. 472-477

Lipshutz, R. and S. Fodor (1994) Advanced DNA sequencing technologies.

Curr Opin Struct Biol 4:376-380

Maxam, A. and W. Gilbert (1977) A new method for sequencing DNA. Proc Natl

Acad Sci 74(2): 560-564

Meldrum, D. (2000) Automation for genomics, part two: sequencers,

microarrays, and future trends. Genome Res 10: 1288-1303

Mullis, K (1990) The unusual origin of the polymerase chain reaction. Sci Am

262(4):56-65

Myers, G. (1999) Whole-genome DNA sequencing. Computing in Science &

Engineering. IEEE pp. 33-43

Olson, M. (1993) The human genome project. Proc Natl Acad Sci, USA. 90:

4338-4344

Prober, J. et al., (1987) A system for rapid DNA sequencing with fluorescent

chain-terminating dideoxynucleotides. Science. 238: 336-341

Rosenblum, B., L. Lee, S. Spurgeon, S. Khan, S. Menchen, C Heiner, and S.

Chen (1997) New dye-labeled terminators for improved DNA sequencing

patterns. Nucleic Acids Res 25(22):4500-4504

Sanger, F., S. Nicklen, and A.R. Coulson (1977) DNA sequencing with chain

terminating inhibitors. Proc Natl Acad Sci 74(12): 5463-5467

Sanger, F. and A.R. Coulson (1978) The use of thin acrylamide gels for DNA

sequencing. FEBS Lett 87(1): 107-110

Sanger, F. (1988) Early nucleic acid chemistry. Trends Biochem Sci 13: 67-69

Schlenk, F., (1988).Early nucleic acid chemistry, Trends Biochem. Sci., 13:

67-69

Smith, L., S. Fung, M. Hunkapiller, T. Hunkapiller, and L Hood (1985) The

synthesis of oligonucleotides containing an aliphatic amino group at the

5’ terminus: synthesis of fluorescent DNA primers for use in DNA

sequence analysis. Nucleic Acids Res. 13(7): 2399-2412

Smith, L. J. Sandlers, R. Kaiser, P. Hughes, C. Dodd, C. Connell, C. Heiner, S.

Kent, and L. Hood (1986) Fluorescence detection in automated DNA

sequence analysis. Nature 321: 64-69

Stewart, P. R. and D. Letham (1977), The ribonucleic acids, 2 nd Ed., Springer

Verlag, NY, EUA, pp. 374.

Tabor, S. and C. Richardson (1995) A single residue in DNA polymerases of

the Escherichia coli DNA polymerase I family is critical for distinguishing

between deoxy and dideoxyribonucleotides. Proc Natl Acad Sci, USA 92:

6339-6343

Tahara, T., J. Kraus, and L. Rosenberg (1990) Direct DNA sequencing of PCR

Amplified genomic DNA by the Maxam-Gilbert method. BioTechniques

8(4): 366-367

Tang, K., P. Oeth, S. Kammerer, M. Denissenko, J. Ekblom, C. Jurinke, D. van

den Boom, A. Braun, and C. Cantor. (2004) Minin Disease

susceptibility genes through SNP analyses and expression profiling

using MALDI-TOF máss spectrometry. J. Proteome Res 3(2): 218-227

Venter, C. et al. (2001) The sequence of the human genome. Science 291:

1304-1351

Voet, D. and J. Voet, (1995) Biochemistry, 2 nd Ed. John Wiley and Sons, Inc.

NY, EUA

Wang, D. et al. (1998) Large-scale identification, mapping, and genotyping of

single nucleotide polymorphisms in the human genome. Science 280:

1077-1082

Watson, J. and F. Crick.(1953) Molecular structure of nucleic acids: structure for

deoxyribose nucleic acids. Nature, 171: 737-738

Weber, J. and E. Myers (1997) Human Whole-genome shotgun sequencing.

Genome Res 7: 401-409

Yager, T., L. Baron, R. Batra, A. Bouevitch, D. Chan, K. Chan, S. Darasch, R.

Gilchrist, A. Izmailov, J. Lacroix, K. Marchellata, J. Renfrew, D. Rushlow,

E. Stinbach, C. Ton, P. Waterhouse, H. Zaleski, J. Dunn, and J. Stevens

(1999) High performance DNA sequencing, and the detection of

mutations and polymorphisms on the Clipper sequencer. Electophoresis

20: 1280-1300

Zimmermann, J., S. Wirmann, H. Voss, C. Schwager, and W. Ansorge (1994)

Improved fluorescent cycle sequencing protocol allows reading nearly

1000 bases. BioTechniques 17(2): 302-305

secuenciación de ácidos nucleicos - Instituto de Biotecnología - UNAM

secuenciación de ácidos nucleicos - Instituto de Biotecnología - UNAM ... View more secuenciación de ácidos nucleicos - Instituto de Biotecnología - UNAM

Delete template?

Save as template ?

secuenciación de ácidos nucleicos - Instituto de Biotecnología - UNAM secuenciación de ácidos nucleicos - Instituto de Biotecnología - UNAM