Inteligencia artificial: resultados inesperados
Cheminformatics echa un vistazo entre bastidores al aprendizaje automático en la investigación farmacológica
¿Qué molécula de fármaco es más eficaz? Los investigadores buscan febrilmente sustancias activas eficaces para combatir enfermedades. Estos compuestos suelen acoplarse a proteínas, que suelen ser enzimas o receptores que desencadenan una cadena específica de acciones fisiológicas. En algunos casos, ciertas moléculas también están destinadas a bloquear reacciones indeseables en el organismo, como una respuesta inflamatoria excesiva. Dada la abundancia de compuestos químicos disponibles, a primera vista esta investigación es como buscar una aguja en un pajar. Por ello, el descubrimiento de fármacos intenta utilizar modelos científicos para predecir qué moléculas se acoplarán mejor a la proteína diana correspondiente y se unirán con fuerza. A continuación, estos posibles fármacos candidatos se investigan con más detalle en estudios experimentales.
Desde el avance de la IA, la investigación en el descubrimiento de fármacos utiliza cada vez más aplicaciones de aprendizaje automático. Las redes neuronales gráficas (GNN, por sus siglas en inglés) ofrecen una de las muchas posibilidades de este tipo de aplicaciones. Están adaptadas para predecir, por ejemplo, la fuerza con que una determinada molécula se une a una proteína diana. Para ello, los modelos GNN se entrenan con grafos que representan complejos formados entre proteínas y compuestos químicos (ligandos). Los grafos suelen estar formados por nodos que representan objetos y aristas que representan relaciones entre nodos. En las representaciones gráficas de complejos proteína-ligando, las aristas conectan únicamente nodos de proteína o ligando, que representan sus estructuras, respectivamente, o nodos de proteína y ligando, que representan interacciones específicas proteína-ligando.
"Cómo llegan las GNN a sus predicciones es como una caja negra que no podemos atisbar", afirma el Prof. Dr. Jürgen Bajorath. El investigador en quimioinformática del Instituto LIMES de la Universidad de Bonn, el Centro Internacional de Tecnologías de la Información de Bonn-Aachen (B-IT) y el Instituto Lamarr de Aprendizaje Automático e Inteligencia Artificial de Bonn, junto con colegas de la Universidad Sapienza de Roma, ha analizado en detalle si las redes neuronales gráficas aprenden realmente las interacciones proteína-ligando para predecir la intensidad con la que una sustancia activa se une a una proteína diana.
¿Cómo funcionan las aplicaciones de IA?
Los investigadores analizaron un total de seis arquitecturas GNN diferentes utilizando su método "EdgeSHAPer", desarrollado especialmente, y una metodología de comparación conceptualmente distinta. Estos programas informáticos "examinan" si las GNN aprenden las interacciones más importantes entre un compuesto y una proteína y, por tanto, predicen la potencia del ligando, tal y como pretenden y prevén los investigadores, o si la IA llega a las predicciones de otra forma. "Las GNN dependen mucho de los datos con los que se entrenan", afirma el primer autor del estudio, el doctorando Andrea Mastropietro, de la Universidad Sapienza de Roma, que realizó una parte de su investigación doctoral en el grupo del profesor Bajorath en Bonn.
Los científicos entrenaron las seis GNN con gráficos extraídos de estructuras de complejos proteína-ligando, cuyo modo de acción y fuerza de unión de los compuestos a sus proteínas diana ya se conocían por experimentos. A continuación, las GNN entrenadas se probaron con otros complejos. El posterior análisis EdgeSHAPer permitió comprender cómo las GNN generaban predicciones aparentemente prometedoras.
"Si las GNN hacen lo que se espera de ellas, tienen que aprender las interacciones entre el compuesto y la proteína diana, y las predicciones deben determinarse priorizando interacciones específicas", explica el profesor Bajorath. Sin embargo, según los análisis del equipo de investigación, las seis GNN fracasaron en lo esencial. La mayoría de las GNN sólo aprendieron unas pocas interacciones proteína-fármaco y se centraron principalmente en los ligandos. Bajorath: "Para predecir la fuerza de unión de una molécula a una proteína diana, los modelos "recordaron" principalmente moléculas químicamente similares que encontraron durante el entrenamiento y sus datos de unión, independientemente de la proteína diana. Estas similitudes químicas aprendidas determinaron entonces esencialmente las predicciones".
Según los científicos, esto recuerda en gran medida al "efecto Clever Hans". Este efecto se refiere a un caballo que aparentemente sabía contar. Se suponía que la frecuencia con la que Hans golpeaba su pezuña indicaba el resultado de un cálculo. Sin embargo, como se comprobó más tarde, el caballo no era capaz de calcular en absoluto, sino que deducía los resultados esperados a partir de matices en las expresiones faciales y los gestos de su compañero.
¿Qué significan estos descubrimientos para la investigación farmacológica? "En general, no es defendible que las GNN aprendan las interacciones químicas entre sustancias activas y proteínas", afirma el científico especializado en quimioinformática. Sus predicciones están en gran medida sobrevaloradas, porque se pueden hacer predicciones de calidad equivalente utilizando conocimientos químicos y métodos más sencillos". Sin embargo, la investigación también ofrece oportunidades de IA. Dos de los modelos GNN examinados mostraban una clara tendencia a aprender más interacciones cuando aumentaba la potencia de los compuestos de prueba. "Merece la pena examinarlos más de cerca", afirma Bajorath. Quizá estas GNN puedan mejorarse aún más en la dirección deseada mediante representaciones y técnicas de entrenamiento modificadas. Sin embargo, la suposición de que las cantidades físicas pueden aprenderse a partir de gráficos moleculares debe tratarse en general con cautela. "La IA no es magia negra", afirma Bajorath.
Más luz en la oscuridad de la IA
De hecho, considera que la anterior publicación en acceso abierto de EdgeSHAPer y otras herramientas de análisis especialmente desarrolladas son enfoques prometedores para arrojar luz sobre la caja negra de los modelos de IA. El enfoque de su equipo se centra actualmente en las GNN y los nuevos "modelos de lenguaje químico". "El desarrollo de métodos para explicar las predicciones de modelos complejos es un área importante de la investigación en IA. También hay enfoques para otras arquitecturas de red, como los modelos de lenguaje, que ayudan a comprender mejor cómo llega a sus resultados el aprendizaje automático", afirma Bajorath. Espera que pronto ocurran cosas interesantes también en el campo de la "IA explicable" en el Instituto Lamarr, donde es IP y Catedrático de IA en Ciencias de la Vida.
Nota: Este artículo ha sido traducido utilizando un sistema informático sin intervención humana. LUMITOS ofrece estas traducciones automáticas para presentar una gama más amplia de noticias de actualidad. Como este artículo ha sido traducido con traducción automática, es posible que contenga errores de vocabulario, sintaxis o gramática. El artículo original en Inglés se puede encontrar aquí.