La inteligencia artificial descifra las instrucciones genéticas
Los algoritmos de aprendizaje profundo revelan las reglas de la regulación de los genes
Avsec / TUM
Los algoritmos de inteligencia artificial son extremadamente potentes para ajustar conjuntos de datos masivos y complejos. Pero su interpretación, es decir, la racionalización de cómo la máquina realiza predicciones específicas cuando se le presenta una entrada determinada, es notoriamente difícil. Este comportamiento de caja negra dificulta la aceptación de la IA en los diagnósticos médicos, donde las justificaciones son importantes, y limita su utilidad en las ciencias naturales, donde el objetivo es comprender los mecanismos.
Ahora, un equipo interdisciplinar de biólogos e investigadores computacionales de la Universidad Técnica de Múnich, el Instituto Stowers de Investigación Médica y la Universidad de Stanford ha demostrado que la aplicación de redes neuronales, como las que se utilizan para el reconocimiento facial, junto con técnicas de interpretación de modelos recientemente desarrolladas, puede utilizarse para descifrar instrucciones complejas codificadas en el ADN.
Uno de los grandes problemas sin resolver en biología es el segundo código del genoma, el código regulador. Las bases del ADN codifican no sólo las instrucciones sobre cómo construir proteínas, sino también cuándo y dónde fabricarlas en un organismo.
El código regulador es leído por unas proteínas llamadas factores de transcripción que se unen a unos tramos cortos de ADN llamados motivos. Sin embargo, la forma en que las combinaciones y disposiciones particulares de los motivos especifican la actividad reguladora es un problema extremadamente complejo que ha sido difícil de precisar.
Los experimentos de unión al ADN y los modelos computacionales van de la mano
La clave estaba en realizar experimentos de unión de factores de transcripción al ADN y en la modelización computacional con la mayor resolución posible, hasta el nivel de las bases individuales del ADN. Esta mayor resolución permitió al equipo no sólo entrenar modelos de redes neuronales de gran precisión, sino también extraer los elementos y patrones clave de los modelos, incluidos los motivos de unión de los factores de transcripción y las reglas combinatorias por las que funcionan juntos como código.
"Las redes neuronales son cajas negras, pero pueden ser interrogadas digitalmente. Así, con un gran número de experimentos virtuales averiguamos las reglas que la red neuronal aprendió", afirma el primer autor, el Dr. Žiga Avsec, miembro del grupo de Julien Gagneur, profesor de medicina molecular computacional en la Universidad Técnica de Múnich. Junto con Anshul Kundaje, profesor de la Universidad de Stanford, creó la primera versión del modelo cuando visitó Stanford como científico invitado.
Aplicado a los reguladores maestros de la diferenciación de las células madre y confirmado experimentalmente mediante la edición genómica CRISPR, el planteamiento reveló reglas complejas que implicaban un posicionamiento preciso a lo largo de la doble hélice del ADN y un ordenamiento específico de los acontecimientos.
"Esto fue extremadamente satisfactorio", dice la líder del proyecto, Julia Zeitlinger, investigadora del Instituto Stowers y profesora del Centro Médico de la Universidad de Kansas, "ya que los resultados encajan perfectamente con los resultados experimentales existentes, y también revelaron conocimientos novedosos que nos sorprendieron."
Un patrón se hace visible: cómo se une Nanog al ADN
Por ejemplo, los investigadores descubrieron que un factor de transcripción bien estudiado, llamado Nanog, se une de forma cooperativa al ADN cuando los múltiplos de su motivo están presentes de forma periódica, de manera que aparecen en el mismo lado de la hélice de ADN en espiral.
"Ha habido un largo camino de pruebas experimentales de que tal periodicidad de motivos existe a veces en el código regulador", dice Zeitlinger. Sin embargo, las circunstancias exactas eran esquivas, y Nanog no había sido sospechoso. Descubrir que Nanog tiene ese patrón, y ver detalles adicionales de sus interacciones, fue sorprendente porque no buscamos específicamente este patrón".
"Esta es la ventaja clave de utilizar redes neuronales para esta tarea. Un modelo computacional clásico se construye a partir de reglas rígidas elaboradas a mano para garantizar su interpretación", dice Avsec. "Sin embargo, la biología es extremadamente rica y complicada. Al abandonar la necesidad de interpretar parámetros individuales, podemos entrenar modelos mucho más flexibles y matizados que capturen cualquier fenómeno biológico, incluidos los que aún se desconocen."
Un potente enfoque ascendente
Este modelo de red neuronal -denominado BPNet por Base Pair Network- es un potente enfoque ascendente similar al del reconocimiento facial en imágenes, en el que una red neuronal detecta primero los bordes en los píxeles, luego aprende cómo los bordes forman elementos faciales como el ojo, la nariz o la boca y, por último, cómo los elementos faciales juntos forman una cara.
En lugar de aprender de los píxeles, BPNet aprende de la secuencia de ADN en bruto y aprende a detectar los motivos de la secuencia y, finalmente, las reglas de orden superior por las que los elementos predicen los datos de unión de la resolución base.
Tanto el laboratorio Zeitlinger como el laboratorio Kundaje ya están utilizando BPNet para identificar de forma fiable motivos de unión para otros tipos de células, relacionar motivos con parámetros biofísicos y aprender otras características estructurales del genoma, como las asociadas al empaquetamiento del ADN. Para que otros científicos puedan utilizar BPNet y adaptarlo a sus propias necesidades, los investigadores han puesto a su disposición todo el marco de software con documentación y tutoriales.
"Este trabajo es una proeza tecnológica", afirma Julien Gagneur. "Combina el modelado de aprendizaje profundo de ensayos de todo el genoma hasta resoluciones de un solo nucleótido, junto con técnicas avanzadas de IA explicable que permiten interpretar lo que "la caja negra" ha aprendido. La metodología ayudará a los biólogos a estudiar la gramática reguladora completa".
Nota: Este artículo ha sido traducido utilizando un sistema informático sin intervención humana. LUMITOS ofrece estas traducciones automáticas para presentar una gama más amplia de noticias de actualidad. Como este artículo ha sido traducido con traducción automática, es posible que contenga errores de vocabulario, sintaxis o gramática. El artículo original en Inglés se puede encontrar aquí.