Descifrar el código de la vida: un nuevo modelo de IA descifra el lenguaje oculto del ADN
El ADN contiene la información básica para la vida. Comprender cómo se almacena y organiza esta información ha sido uno de los mayores retos científicos del último siglo. Con GROVER, un nuevo gran modelo lingüístico entrenado con ADN humano, los investigadores pueden ahora intentar descifrar la compleja información oculta en nuestro genoma.
Desarrollado por un equipo del Centro de Biotecnología (BIOTEC) de la Universidad Técnica de Dresde, GROVER trata el ADN humano como si fuera un lenguaje y aprende sus reglas y relaciones para deducir información funcional sobre las secuencias de ADN. Esta nueva herramienta, publicada en "Nature Machine Intelligence", tiene el potencial de revolucionar la genómica y hacer avanzar la medicina personalizada.
Desde el descubrimiento de la doble hélice, los investigadores han buscado el conocimiento codificado en el ADN. 70 años después, está claro que la información oculta en el ADN tiene múltiples capas. Sólo el 1-2% del genoma está formado por genes, las secuencias que codifican las proteínas.
"El ADN tiene muchas funciones que van más allá de la codificación de proteínas. Algunas secuencias regulan los genes, otras tienen fines estructurales y la mayoría de las secuencias cumplen varias funciones simultáneamente. Actualmente, no comprendemos el significado de la mayor parte del ADN. En cuanto a las áreas que quedan fuera de los genes, parece que sólo hemos arañado la superficie. Aquí es donde la IA y los grandes modelos lingüísticos pueden ayudarnos", afirma la Dra. Anna Poetsch, jefa del grupo de investigación de BIOTEC.
El ADN como lenguaje
Los grandes modelos lingüísticos como GPT han cambiado nuestra comprensión del lenguaje. Entrenados exclusivamente con texto, los modelos lingüísticos desarrollaron la capacidad de utilizar el lenguaje en muchos contextos.
"El ADN es el código de la vida. ¿Por qué no tratarlo como un lenguaje?", se pregunta el Dr. Poetsch. El equipo de Poetsch entrenó un gran modelo lingüístico con un genoma humano de referencia. La herramienta resultante, GROVER (Genome Rules Obtained via Extracted Representations), puede utilizarse para extraer el significado biológico del ADN.
"GROVER ha aprendido las reglas del ADN. En términos de lenguaje, hablamos de gramática, sintaxis y semántica. En el caso del ADN, esto significa aprender las reglas de las secuencias, el orden de los nucleótidos y las secuencias y su significado. Al igual que los modelos GPT aprenden idiomas humanos, GROVER ha aprendido básicamente a 'hablar ADN'", explica la Dra. Melissa Sanabria, investigadora del proyecto.
El equipo demostró que GROVER no sólo puede predecir con exactitud las siguientes secuencias de ADN, sino que también puede utilizarse para extraer información de significado biológico del contexto. Por ejemplo, puede identificar el inicio de genes o sitios de unión de proteínas en el ADN. GROVER también aprende procesos que suelen considerarse "epigenéticos", es decir, los que tienen lugar en el ADN y hasta ahora no se consideraban "codificados".
"Es fascinante que entrenando a GROVER sólo con la secuencia de ADN, sin datos funcionales adicionales, podamos extraer información sobre la función biológica. Para nosotros, esto demuestra que la función, incluida cierta información epigenética, también está codificada en la secuencia", afirma el Dr. Sanabria.
El diccionario del ADN
"El ADN es similar al lenguaje. Consta de cuatro letras que forman secuencias, y las secuencias tienen un significado. Sin embargo, a diferencia de un idioma, no existe el concepto de palabra", explica el Dr. Poetsch. El ADN consta de cuatro letras (A, T, G y C) y genes, pero no hay secuencias predefinidas de distintas longitudes que se combinen para formar genes u otras secuencias significativas.
Para entrenar a GROVER, el equipo tuvo que crear primero un diccionario de ADN. Para ello utilizaron un truco de los algoritmos de compresión. "Este paso es crucial y distingue nuestro modelo de lenguaje del ADN de otros intentos anteriores", explica Poetsch.
"Analizamos todo el genoma y buscamos las combinaciones de letras más frecuentes. Empezamos con dos letras y buscamos en el ADN una y otra vez hasta llegar a las combinaciones de varias letras más comunes. De este modo, en unos 600 ciclos, fragmentamos el ADN en "palabras" que permiten a GROVER predecir mejor la siguiente secuencia", explica el Dr. Sanabria.
La promesa de la IA en genómica
GROVER promete desentrañar los distintos niveles del código genético. El ADN contiene información importante sobre lo que nos hace humanos, nuestras susceptibilidades a las enfermedades y nuestras respuestas a los tratamientos.
"Creemos que entender las reglas del ADN mediante un modelo lingüístico nos ayudará a descubrir las profundidades del significado biológico oculto en el ADN. Esto debería hacer avanzar tanto la genómica como la medicina personalizada", afirma el Dr. Poetsch.
Nota: Este artículo ha sido traducido utilizando un sistema informático sin intervención humana. LUMITOS ofrece estas traducciones automáticas para presentar una gama más amplia de noticias de actualidad. Como este artículo ha sido traducido con traducción automática, es posible que contenga errores de vocabulario, sintaxis o gramática. El artículo original en Alemán se puede encontrar aquí.