Porque todas las tecnologías de secuencia actuales tienen una longitud de lectura limitada.
En la secuencia de “Sanger” se hace cada vez más difícil identificar la base adyacente a medida que la secuencia se hace más larga. La técnica se basa en la separación del tamaño y es realmente difícil distinguir la diferencia entre el tamaño del fragmento realmente grande y un fragmento realmente grande + 1.
En Illumina Solexa sequencing / 454 Sequencing y LIFE / Solid sequencing las moléculas en un cluster / on bead van “fuera de fase”. Cuando se agregan bases adicionales a una población, algunas reciben una base, otras no, y algunas reciben dos. Puede pensar en esto como un tipo de ruido de diafonía, eventualmente enmascara la verdadera señal. Hay otros efectos (fotoblanqueo, etc.) que también limitan la duración de la lectura.
Es por eso que solo leemos secciones cortas. Actualmente también elegimos fragmentar aleatoriamente genomas para “secuenciación de cortocircuito”. Existen técnicas que le permiten seleccionar regiones específicas, sin embargo, requieren un conocimiento previo del genoma y también imponen una * gran * sobrecarga experimental.
Por esta razón, leemos fragmentos aleatorios y montamos (superponemos pequeños bits para reconstruir el conjunto) o alineamos (ver dónde coinciden en una secuencia de referencia) las secuencias.