¿Qué es necesario para describir a un humano genéticamente?

No sé si esta es una lista completa, pero llegará lo más cerca que pueda.

Información de secuencia primaria . La secuencia del genoma es la plataforma en la que se basa casi toda la información epigenética; almacenar esto es bastante trivial.

Longitud del telómero Los telómeros son las secuencias protectoras repetitivas en los extremos de los cromosomas. La longitud exacta de los elementos de ADN repetitivos no puede determinarse por secuenciación sola, por lo que este es un caso especial de información de secuencia primaria.

Estado del ciclo celular . El ciclo celular (para la mayoría de las células, donde se encuentran en el proceso de replicación y división por mitosis) tiene profundos efectos sobre cómo se empaquetan los cromosomas y dónde se colocan. La replicación del ADN (el proceso mediante el cual se copia el ADN) también influye si el ADN en cualquier ubicación es monocatenario o bicatenario (la replicación ocurre en “burbujas” monocatenarias), lo que tiene efectos significativos sobre la expresión génica. Esto probablemente se modele mejor como una sola variable global, con algunas suposiciones de que todo el ADN celular se trata de manera similar en momentos similares del ciclo celular.

Modificación química de las bases de ADN . La modificación más común es la metilación de la citosina, pero también existen otras. Estas modificaciones pueden reconocerse por las proteínas de unión al ADN (discutidas a continuación) y ejercer influencia sobre la transcripción (entre otros procesos). Estos se pueden almacenar como coordenadas genómicas.

Colocación, composición y estado de modificación del nucleosoma . Los nucleosomas son complejos proteicos octoméricos que sirven como andamio para la compactación del ADN. Cada nucleosoma tiene dos copias de cada uno de cuatro tipos de proteína de histona; tres de las cuatro histonas tienen múltiples variantes (una tiene más de 10 en humanos) que pueden ensamblarse para dar nucleosomas funcionalmente diferentes. Los aminoácidos específicos sobre histonas también pueden modificarse postraduccionalmente con pequeñas fracciones químicas, lo que también cambia la función del nucleosoma asociado. En una población de células del mismo tipo, el paisaje nucleosomal tiende a ser similar, pero no idéntico (las ocupaciones nucleosómicas probablemente se describen mejor como distribuciones de probabilidad en función de la posición en la secuencia primaria). Estos podrían modelarse mejor como objetos nucleosómicos que se encuentran dentro de las regiones definidas de la secuencia primaria.

Estado de transcripción La transcripción es el proceso de usar ADN como una plantilla para hacer ARN, y es realizado por una familia de complejos proteicos llamados ARN polimerasas. Una forma de entender qué ARN está haciendo activamente cada célula es averiguar en qué parte del genoma se unen las ARN polimerasas. Las regiones transcritas activamente se enriquecerán para los complejos de polimerasa. Al igual que la posición del nucleosoma, esta puede almacenarse como una fracción de ocupación en función de la posición genómica.

Otra ocupación de proteína de unión a ADN . La transcripción está estrechamente regulada por la asociación de proteínas de unión a ADN llamadas factores de transcripción. Estas proteínas pueden reconocer muchas características diferentes del ADN, que incluyen, pero no se limitan a: secuencia primaria, posición e identidad del nucleosoma, estado de modificación del nucleosoma, ADN monocatenario expuesto y la presencia de otras proteínas de unión al ADN. Esta combinación de información se “lee” mediante un factor de transcripción y determina qué ADN se transcribe (o no se transcribe) en un momento dado. Las proteínas de unión al ADN también están sujetas a modificaciones postraduccionales que pueden alterar su actividad. Esto también se almacena mejor como datos de ocupación en función de las coordenadas genómicas.

Ocupación larga de RNA no codificante. Al igual que las proteínas de unión al ADN, los ARN largos no codificantes también se unen e influyen en lo que sucede con el ADN. Sin embargo, sabemos mucho menos acerca de cómo ocurre esto y dónde están los ARN largos.

Todo lo anterior se está mapeando activamente como el objetivo central del proyecto ENCyclopedia de DNa Elements (ENCODE), pero son solo el comienzo de la información requerida para describir el estado de expresión génica de una célula.

Conformación y posición del ADN en el núcleo . Los cromosomas se mueven, doblan y conforman activamente dentro del núcleo para asegurar que se agrupen secciones del genoma funcionalmente similares. La función de algunas de las proteínas de unión al ADN descritas anteriormente puede cambiar en función del lugar en el que se están asociando con el ADN, por lo que saber dónde está cada pieza de ADN en relación con la membrana nuclear y otras piezas de ADN es esencial. Esto se está mapeando utilizando la Captura de Conformación Cromosómica (y técnicas relacionadas), y se representa mejor como un diagrama de red increíblemente complicado o una estructura tridimensional de alta resolución.

Esta es la mayor parte de la información que necesitaría para describir los aspectos nucleares de un genoma (todavía estamos trabajando para descubrir todas las facetas de las categorías anteriores, y puede haber aún más que aún no sabemos), pero el epigenoma se extiende hacia el citoplasma. Como estos tienen un efecto menos directo (¡pero no menos significativo!) Sobre el genoma, no elaboraré más allá de afirmar que necesitamos saber cantidades, localizaciones y estados de modificación de casi todas las moléculas en una célula para poder para descubrir cómo se ve su expresión génica ¡La información nuclear por sí sola no es suficiente!