DeepMind y EMBL publican la base de datos más completa de estructuras 3D predichas de proteínas humanas
Los socios utilizan AlphaFold para poner a disposición de la comunidad científica más de 350.000 predicciones de la estructura de las proteínas, incluido todo el proteoma humano
Karen Arnott/EMBL-EBI
AlphaFold ya está ayudando a los científicos a acelerar los descubrimientos
La capacidad de predecir computacionalmente la forma de una proteína a partir de su secuencia de aminoácidos -en lugar de determinarla experimentalmente a través de años de técnicas minuciosas, laboriosas y a menudo costosas- ya está ayudando a los científicos a conseguir en meses lo que antes les llevaba años.
"La base de datos AlphaFold es un ejemplo perfecto del círculo virtuoso de la ciencia abierta", dijo la Directora General del EMBL, Edith Heard. "AlphaFold se entrenó utilizando datos de recursos públicos construidos por la comunidad científica, por lo que tiene sentido que sus predicciones sean públicas. Compartir las predicciones de AlphaFold de forma abierta y gratuita permitirá a los investigadores de todo el mundo obtener nuevos conocimientos e impulsar los descubrimientos. Creo que AlphaFold es realmente una revolución para las ciencias de la vida, al igual que lo fue la genómica hace varias décadas, y estoy muy orgulloso de que el EMBL haya podido ayudar a DeepMind a permitir el acceso abierto a este extraordinario recurso."
AlphaFold ya está siendo utilizado por socios como la Iniciativa de Medicamentos para Enfermedades Olvidadas (DNDi), que ha hecho avanzar su investigación en curas que salvan vidas para enfermedades que afectan desproporcionadamente a las partes más pobres del mundo, y el Centro de Innovación Enzimática (CEI) está utilizando AlphaFold para ayudar a diseñar enzimas más rápidas para reciclar algunos de nuestros plásticos de un solo uso más contaminantes. Para los científicos que dependen de la determinación experimental de la estructura de las proteínas, las predicciones de AlphaFold han ayudado a acelerar sus investigaciones. Por ejemplo, un equipo de la Universidad de Colorado, en Boulder, está utilizando las predicciones de AlphaFold para estudiar la resistencia a los antibióticos, mientras que un grupo de la Universidad de California, en San Francisco, las ha utilizado para mejorar su comprensión de la biología del SARS-CoV-2.
La base de datos de estructuras proteicas AlphaFold
La base de datos de estructuras de proteínas AlphaFold* se basa en muchas contribuciones de la comunidad científica internacional, así como en las sofisticadas innovaciones algorítmicas de AlphaFold y en las décadas de experiencia de EMBL-EBI en el intercambio de datos biológicos del mundo. DeepMind y el Instituto Europeo de Bioinformática del EMBL (EMBL-EBI) están proporcionando acceso a las predicciones de AlphaFold para que otros puedan utilizar el sistema como una herramienta para permitir y acelerar la investigación y abrir vías completamente nuevas de descubrimiento científico.
"Este será uno de los conjuntos de datos más importantes desde el mapeo del Genoma Humano", dijo el Director General Adjunto del EMBL y Director del EMBL-EBI, Ewan Birney. "Hacer que las predicciones de AlphaFold sean accesibles a la comunidad científica internacional abre muchas nuevas vías de investigación, desde enfermedades olvidadas hasta nuevas enzimas para la biotecnología y todo lo demás. Se trata de una nueva y gran herramienta científica, que complementa las tecnologías existentes y nos permitirá ampliar los límites de nuestra comprensión del mundo."
Además del proteoma humano, la base de datos se lanza con ~350.000 estructuras que incluyen 20 organismos de importancia biológica como E.coli, la mosca de la fruta, el ratón, el pez cebra, el parásito de la malaria y la bacteria de la tuberculosis. La investigación sobre estos organismos ha sido objeto de innumerables trabajos de investigación y numerosos e importantes avances. Estas estructuras permitirán a los investigadores de una gran variedad de campos, desde la neurociencia hasta la medicina, acelerar su trabajo.
El futuro de AlphaFold
La base de datos y el sistema se actualizarán periódicamente mientras seguimos invirtiendo en futuras mejoras de AlphaFold, y en los próximos meses tenemos previsto ampliar enormemente la cobertura a casi todas las proteínas secuenciadas conocidas por la ciencia: más de 100 millones de estructuras que cubren la mayor parte de la base de datos de referencia UniProt.
Para saber más, consulte los artículos de Nature que describen nuestro método completo y el proteoma humano*, y lea las notas de los autores*. Consulte el código de código abierto de AlphaFold si desea ver el funcionamiento del sistema, y Colab notebook* para ejecutar secuencias individuales. Para explorar las estructuras, visite la base de datos de búsqueda del EMBL-EBI* que es abierta y gratuita para todos.