¿Cómo puede una mera 500mb de información codificada en el ADN humano describir una disposición tan compleja de células como el cuerpo humano que consiste en billones de células?

Hay pocas razones de cómo se hace. Trataré de explicar el problema con ejemplos de código de computadora (ya que OP dijo que es una persona de CS). No soy profundo en CS, pero sé algo de programación esencial. Avísame si algo está mal.

Los datos biológicos están más comprimidos que los datos de la computadora.

Los humanos (como cualquier otra especie) usan 4 nucleótidos diferentes del ADN. Eso es diferente del formato binario de las computadoras.

Código humano: … ATGGCATTTGAT … (el mismo código de tamaño significa más desde su base 4)

Código de computadora: … 1011011010101110 …

En organismos biológicos, 3 nucleótidos representan un aminoácido que es la unidad structral más pequeña de proteínas. Entonces, 3 bytes son suficientes para expresar algo válido para formar una estructura, en el caso de un solo aminoácido. La proteína más pesada en el cuerpo humano es la titina (tiene 34.350 aminoácidos o letras).

Las computadoras usan 2-4 bytes para representar un integer y un entero también puede expresarse como un char que también es la unidad más pequeña de un código de programa; sin embargo, no significa nada cuando es solo. Tienes que poner letras para formar una línea que haga algo. Incluso los programas informáticos funcionales más pequeños necesitan mucho código, lo que significa muchas letras (probablemente más de 34,350).

No hay “declaraciones” en el código biológico, excepto algunos sitios reguladores en el ADN.

El ADN contiene información estructural de proteínas, no su función. Una vez que se sintetiza una proteína, no necesita declaraciones para decirle cómo realizar el trabajo porque las reacciones eventualmente ocurrirán. Los organismos aprovechan esos “atajos de procesos naturales” de manera bastante efectiva. ¿Vas a sintetizar una proteína cuya función es agregar un fosfato a la glucosa? Claro, está la información estructural. Una vez que sintetice la proteína, tan pronto como atrape una molécula de glucosa y fosfato, mantendrá ambas moléculas con sus lados adhesivos y las combinará. Son como automático . Usted crea un objeto, que no necesita ningún método, variable, subclase para obtener su funcionalidad. Tal vez, solo algunas secuencias como señales de localización nuclear transporten estructuras de un lugar a otro. ¿Quieres disminuir la actividad de un gen? Agregue un grupo de metileno al sitio regulador, y prácticamente hecho. Ver epigenética.

Los sitios reguladores en el ADN son muy similares a los casos en computadoras. Es decir, el sitio regulador de un código de ADN de proteína de ruptura de ácidos grasos, contiene algunas secuencias de parámetros (¡eso no es una metáfora, realmente contiene parámetros!) Que pueden reconocer hormonas, algunas otras moléculas mensajeras, falta de ATP, etc. y revalorizar esos parámetros para decidir cuándo activar ese gen o cuándo no. (es un ejemplo inventado)

Sin embargo, las computadoras necesitan “órdenes” para hacer su trabajo. Ejemplo rápido en pseudo código:

// Organismos vivos
si (glucosa)
Protein glucoseKinase = new Protein ();
// Entonces la naturaleza toma el control luego de que esa línea se ejecuta y hace todo el trabajo

// Ordenadores
Protein glucoseKinase = new Protein ();
tratar {
glucoseKinase.attach (glucose);
glucoseKinase.attach (ATP.getPhosphates (3) .remove);
glucoseKinase.combine ();
glucoseKinase.release ();
// …
} catch (Exception e) {
// oh incluso tenemos que manejar excepciones … recuerda que no hay
// excepciones en organismos. ¿Alguna vez has visto una bacteria que muestra cuadros de error? Es por eso que un “error de compilación” puede ser fatal …

Ambas razones cubren etapas embrionarias también. Hay muchas acciones que se disparan entre sí. Es complejo, pero no necesita demasiados datos para controlarlos en absoluto.

Considere que, esta información ha estado viajando a través de organismos durante 3,5 mil millones de años y todavía se está desarrollando . Los humanos son la última versión del código. Hemos sobrevivido a todos los desastres en la historia de la evolución y nos convertimos en las especies más adaptables. En cada paso de la selección natural, solo los mejores podían sobrevivir, y el código se desarrolló de manera bastante efectiva, adaptado para vivir en la tierra.

El problema básico abordado es:

¿Pueden enumerarse los contenidos informales del genoma humano?

.

Mi tesis contra eso:

Es imposible enumerar los contenidos informales de un genoma.

.

Algunas cifras son hechos:

Hay aproximadamente 100,000,000,000,000 de células en nuestro cuerpo.

Nuestro genoma contiene alrededor de 23,000 regiones de codificación llamadas genes.

La diversidad de anticuerpos es de aproximadamente 10 ^ 12.

Con estos 23,000 genes , codificamos aproximadamente 100,000,000,000 de anticuerpos y todos los demás componentes.

[matemáticas] 23,000 <<< 100,000,000,000 [/ math]

Esta desigualdad ya es mi tesis:

.

.

Es imposible enumerar los contenidos informales de un genoma.

.

.

La pregunta es respondida

Pero los contenidos informativos inherentes de la genética van MUCHO más allá de lo que se puede entender con el conteo: ¿cómo se debe enumerar toda la información puesta en un solo anticuerpo, solo para permanecer con esta molécula? Un anticuerpo puede seleccionar con la mayor precisión solo un antígeno específico en una selección para elegir entre más allá del dicho de una aguja en el heno.

.

A continuación, deseo abordar algunas de las insuficiencias inherentes al contar las bases del genoma como unidades de información. Este es un error de información.

GENOMA

Nuestro programa genético está descifrado, pero llevará más tiempo comprenderlo. Algunos destellos ya están bien entendidos y sirven como ejemplos de cómo el conjunto funciona en conjunto. El genoma humano consta de 23,000 genes, contenidos en 3,27 × 10 ^ 9 bases. Nuestro genoma de descifrado es aproximadamente diez veces más grande. No puedo calcular a partir del número de bases o de la base de códigos triples los contenidos informativos, ya que hay diferentes posibilidades para la transferencia matemática: para cada base tienes las 4 posibilidades, para cada triplete (existen 64 posibilidades) solo puede coincidir con uno de 20 aminoácidos.

Hay otro problema: ¿cómo se cuenta la información? Sobre la base de bits y picaduras? Eso está bien, los humanos diseñaron ese sistema, ¿entonces podrían contar los contenidos informativos? ¿Solo en el contenido de los bits? Mire una foto que yo o mejor tome de su teléfono. Si es como el mío, transfiere los colores de cada píxel. Eso es formato BMP. ¿Contiene eso diez veces la información de la “misma” imagen en formato JPG? La cantidad de bits se sobreexpresa enormemente sin comprender los conceptos básicos. Lo que realmente cuenta es la información que obtienes. Un ejemplo más complejo: este texto se coloca en varios bits. Es posible que no contenga más información que esos bits si es una computadora. Aunque gramaticalmente no es complejo, este texto me lleva un tiempo escribirlo. Quizás alguien lo lea. Es fácil saber cuántos bits se transmitieron. El contenido de este texto es difícil de calcular. Difícil para un especialista en informática. O para un matemático. O para un lingüista. Para un bioquímico, este texto no contiene información sustancial desconocida hasta ahora.

Nuestro genoma tiene solo un número limitado de genes, aunque es suficiente para la generación de millones de proteínas de anticuerpos diferentes que se pueden producir durante toda la vida, solo bajo demanda.

Este es solo un ejemplo para ilustrar los potenciales biológicos.

Otro: se entiende principalmente que los genes cuentan para las enzimas que regulan nuestras rutas bioquímicas llamadas metabolismo. Digamos que de miles de enzimas se llega a muchos metabolitos. Estas sustancias no están codificadas, solo las enzimas. Las enzimas controlan de esta manera las vías y los productos finales. Pero las enzimas mismas están controladas de manera muy sutil por sustratos, productos intermedios y productos finales. Entonces, “cada” molécula actúa multifuncionalmente e interactúa. Esto no es comparable a ningún otro sistema que conozco. Es más complicado de lo que puedo expresarlo en pocas palabras, al menos tuve que aprender esa cuestión durante décadas, y nunca salí de eso. Las enzimas se pueden cambiar para cambiar las preferencias por otras “sustancias”, a veces lo hace una concentración diferente de un componente, pero en algunos casos es contrarrestado por otro. Además, muchas enzimas son poco conocidas. Por lo tanto, la investigación está en auge: hay más preguntas que respuestas y es una ambición difícil y sobre todo personal, qué buscar primero o después. …

Otra: los genes se encienden y apagan. Como si enciendes la luz. A veces. Pero hay varios interruptores para ellos, varias posibilidades para cambiar. Incluso hay conmutadores maestros. Y hay interruptores para apagarlos. Varios diferentes. Algunos pueden no ser conocidos, es absolutamente imposible estar seguros de que todos los interruptores son conocidos (simplifico aquí).

Otro: el 90% de nuestro genoma no codifica. No es relevante. Pero cuando se lo quitan, resulta que es relevante.

Llegando a un tema diferente:

Si tienes una pirámide, puedes tomar muchas fotos cubriendo cada fragmento de ella. Con una fórmula matemática, puede describir el tetraeder y, además, puede describir las deformaciones. Así como el formato JPG describe BMP, para dar una segunda analogía. Los organismos pueden poner esquemas de construcción en “fórmulas”. Instalados haciendo matemática, regulan y organizan cuánto / largo debe ejecutar una reacción específica mientras existe algún gradiente o cambios. Las dependencias de concentración y las contraregulaciones son esenciales en la organización de, por ejemplo, regulaciones de crecimiento (ontogénesis). No exigiendo mucha información, la información se encuentra en la forma y carga de las moléculas y cómo se unen para cooperar (para “apreciarse” entre sí). Difícil de describir. ¡Cada aspecto llena docenas de trabajos de investigación! Un buen ejemplo de esto: observe los clústeres de coloración en las conchas de serpiente. Muchos se pueden describir fácilmente con fórmulas.

OK, realmente no respondí tu pregunta, lejos de completamente. A pesar de todo, llegué a un final aquí. Puedo continuar aunque, si hay interst, o puede volverse más específico.

Anteriormente me referí a la riqueza del genoma y la insuficiencia para comprender el genoma contando sus bases.

.

OTROS HECHOS

No olviden que el contenido informativo de las biomoléculas es mucho más elevado después de 4 mil millones de años de evolución, incluso cuando el tamaño molecular, los monómeros y átomos involucrados podrían haber sido más pequeños en cuanto a sus números puros. De hecho, mira tus engranajes diarios. ¿Son los más pequeños los más primitivos? Otro argumento contra una enumeración mental simplista de los countables.

.

CONCLUSIONES

.

Es IRRACIONAL tratar de enumerar los contenidos informales de un genoma o de cualquier otra biomolécula.

Aunque, es posible contar el número de átomos, subunidades, diferentes tipos de átomos, etc.

Me resulta extraño que una persona de CS piense en una parte básica de CS solamente, que son los datos . Sin embargo, olvidando por completo las instrucciones . Uno no debería pensar en el ADN como un archivo gráfico simple, como .BMP, donde un byte es igual a un píxel (es decir, un codón de ADN igual a una célula o molécula).

Un ejemplo real, aunque muy simple, sería una instrucción para calcular alguna función matemática, donde un conjunto finito (y considerablemente corto) de instrucciones puede generar datos infinitos. Si eso parece demasiado “uniforme”, ¿qué hay del algoritmo de generación fractal? Algoritmos de generación de secuencias pseudoaleatorias, algunos de los cuales se pueden escribir con literalmente pocas instrucciones binarias.

Estoy seguro de que usted, como persona de CS, puede pensar en más ejemplos en los que un conjunto simple de instrucciones pueda generar al lado de una cantidad interminable de datos no uniformes. Y la capacidad de almacenamiento de ADN ciertamente permite que ese conjunto esté bastante lejos de ser simple.