En la secuenciación del ADN, ¿por qué rompemos el ADN en fragmentos comparativamente cortos y luego los alineamos?

Porque todas las tecnologías de secuencia actuales tienen una longitud de lectura limitada.

En la secuencia de “Sanger” se hace cada vez más difícil identificar la base adyacente a medida que la secuencia se hace más larga. La técnica se basa en la separación del tamaño y es realmente difícil distinguir la diferencia entre el tamaño del fragmento realmente grande y un fragmento realmente grande + 1.

En Illumina Solexa sequencing / 454 Sequencing y LIFE / Solid sequencing las moléculas en un cluster / on bead van “fuera de fase”. Cuando se agregan bases adicionales a una población, algunas reciben una base, otras no, y algunas reciben dos. Puede pensar en esto como un tipo de ruido de diafonía, eventualmente enmascara la verdadera señal. Hay otros efectos (fotoblanqueo, etc.) que también limitan la duración de la lectura.

Es por eso que solo leemos secciones cortas. Actualmente también elegimos fragmentar aleatoriamente genomas para “secuenciación de cortocircuito”. Existen técnicas que le permiten seleccionar regiones específicas, sin embargo, requieren un conocimiento previo del genoma y también imponen una * gran * sobrecarga experimental.

Por esta razón, leemos fragmentos aleatorios y montamos (superponemos pequeños bits para reconstruir el conjunto) o alineamos (ver dónde coinciden en una secuencia de referencia) las secuencias.

La mayoría de las tecnologías de secuenciación involucraban la síntesis: agregar bases complementarias a lo largo de un único capítulo y registrar qué sabor de base acaba de agregarse (generalmente de forma óptica). Pero estadísticamente, de vez en cuando, una base se salta adelante o atrás como un diente deslizándose en un engranaje, por lo que ahora ese filamento está desfasado con todos los otros filamentos que se están secuenciando, y así el resto de la secuencia de este fila estará en error . Así que las longitudes de los fragmentos se eligen para que sean lo más largas posible, pero no tanto como para que los errores de fase anulen los buenos datos.

Muy buena respuesta para la plataforma Illumina:

http://www.reddit.com/r/askscien