La tecnología de la IA genera proteínas originales desde cero
Un modelo de lenguaje natural impulsa el diseño de proteínas con la creación de enzimas activas
Computer-generated image
El experimento demuestra que el procesamiento del lenguaje natural, aunque se desarrolló para leer y escribir textos lingüísticos, puede aprender al menos algunos de los principios subyacentes de la biología. Salesforce Research desarrolló el programa de IA, llamado ProGen, que utiliza la predicción de next-token para ensamblar secuencias de aminoácidos en proteínas artificiales.
Los científicos afirman que la nueva tecnología podría llegar a ser más potente que la evolución dirigida, la tecnología de diseño de proteínas galardonada con el premio Nobel, y que dinamizará el campo de la ingeniería de proteínas, de 50 años de antigüedad, al acelerar el desarrollo de nuevas proteínas que pueden utilizarse para casi cualquier cosa, desde la terapéutica hasta la degradación del plástico.
"Los diseños artificiales funcionan mucho mejor que los inspirados en el proceso evolutivo", afirma el doctor James Fraser, catedrático de Bioingeniería y Ciencias Terapéuticas de la Facultad de Farmacia de la UCSF y autor del trabajo, publicado el 26 de enero en Nature Biotechnology. Una versión previa del trabajo ha estado disponible en el servidor de preimpresión BiorXiv desde julio de 2021, donde obtuvo varias docenas de citas antes de ser publicado en una revista revisada por pares.
"El modelo lingüístico está aprendiendo aspectos de la evolución, pero es diferente del proceso evolutivo normal", dijo Fraser. "Ahora tenemos la capacidad de afinar la generación de estas propiedades para conseguir efectos específicos. Por ejemplo, una enzima que sea increíblemente termoestable o que le gusten los ambientes ácidos o que no interactúe con otras proteínas".
Para crear el modelo, los científicos simplemente introdujeron las secuencias de aminoácidos de 280 millones de proteínas diferentes de todo tipo en el modelo de aprendizaje automático y dejaron que digiriera la información durante un par de semanas. A continuación, afinaron el modelo preparándolo con 56.000 secuencias de cinco familias de lisozimas, junto con información contextual sobre estas proteínas.
El modelo generó rápidamente un millón de secuencias y el equipo de investigación seleccionó 100 para probarlas, basándose en su parecido con las secuencias de proteínas naturales y en el grado de naturalismo de la "gramática" y la "semántica" de aminoácidos subyacentes en las proteínas de IA.
De este primer lote de 100 proteínas, analizadas in vitro por Tierra Biosciences, el equipo fabricó cinco proteínas artificiales para probarlas en células y comparó su actividad con la de una enzima que se encuentra en la clara de los huevos de gallina, conocida como lisozima de clara de huevo de gallina (HEWL). Lisozimas similares se encuentran en las lágrimas, la saliva y la leche humanas, donde defienden contra bacterias y hongos.
Dos de las enzimas artificiales eran capaces de romper las paredes celulares de las bacterias con una actividad comparable a la de la HEWL, aunque sus secuencias sólo eran idénticas en un 18%. Las dos secuencias eran aproximadamente un 90% y un 70% idénticas a cualquier proteína conocida.
Una sola mutación en una proteína natural puede hacer que deje de funcionar, pero en otra ronda de cribado, el equipo descubrió que las enzimas generadas por la IA mostraban actividad incluso cuando tan sólo el 31,4% de su secuencia se parecía a cualquier proteína natural conocida.
La IA fue capaz incluso de aprender cómo debían formarse las enzimas, simplemente estudiando los datos de la secuencia en bruto. Medidas con cristalografía de rayos X, las estructuras atómicas de las proteínas artificiales tenían el aspecto que debían, aunque las secuencias no se parecían a nada visto antes.
Salesforce Research desarrolló ProGen en 2020, basándose en un tipo de programación en lenguaje natural que sus investigadores desarrollaron originalmente para generar texto en inglés.
Sabían por su trabajo previo que el sistema de IA podía enseñarse a sí mismo la gramática y el significado de las palabras, junto con otras reglas subyacentes que hacen que la escritura esté bien compuesta.
"Cuando se entrenan modelos basados en secuencias con muchos datos, son realmente potentes a la hora de aprender estructuras y reglas", afirma Nikhil Naik, Doctor, Director de Investigación de IA en Salesforce Research y autor principal del artículo. "Aprenden qué palabras pueden co-ocurrir, y también la composicionalidad".
Con las proteínas, las opciones de diseño eran casi ilimitadas. Las lisozimas son proteínas pequeñas, con unos 300 aminoácidos. Pero con 20 aminoácidos posibles, hay un número enorme (20300) de combinaciones posibles. Eso es más que tomar todos los seres humanos que han vivido a lo largo del tiempo, multiplicado por el número de granos de arena en la Tierra, multiplicado por el número de átomos en el universo.
Dadas las posibilidades ilimitadas, es sorprendente que el modelo pueda generar enzimas funcionales con tanta facilidad.
"La capacidad de generar proteínas funcionales desde cero demuestra que estamos entrando en una nueva era del diseño de proteínas", afirma Ali Madani, doctor y fundador de Profluent Bio, antiguo investigador científico de Salesforce Research y primer autor del artículo. "Se trata de una nueva herramienta versátil a disposición de los ingenieros de proteínas, y estamos deseando ver las aplicaciones terapéuticas".
Nota: Este artículo ha sido traducido utilizando un sistema informático sin intervención humana. LUMITOS ofrece estas traducciones automáticas para presentar una gama más amplia de noticias de actualidad. Como este artículo ha sido traducido con traducción automática, es posible que contenga errores de vocabulario, sintaxis o gramática. El artículo original en Inglés se puede encontrar aquí.