Déchiffrer le code de la vie : Un nouveau modèle d'IA décrypte le langage caché de l'ADN
L'ADN contient les informations fondamentales de la vie. Comprendre comment ces informations sont stockées et organisées a été et reste l'un des plus grands défis scientifiques du siècle dernier. Grâce à GROVER, un nouveau Large Language Model (modèle de grand langage) entraîné avec de l'ADN humain, les chercheurs peuvent désormais tenter de décrypter les informations complexes cachées dans notre génome.
Développé par une équipe du Centre de biotechnologie (BIOTEC) de l'Université technique de Dresde, GROVER traite l'ADN humain comme un langage et apprend ses règles et ses relations afin de déduire des informations fonctionnelles sur les séquences d'ADN. Ce nouvel outil, publié dans "Nature Machine Intelligence", a le potentiel de révolutionner la génomique et de faire progresser la médecine personnalisée.
Depuis la découverte de la double hélice, les chercheurs sont à la recherche du savoir codé dans l'ADN. Soixante-dix ans plus tard, il est clair que les informations cachées dans l'ADN sont multiples. Seuls 1 à 2 pour cent du génome sont constitués de gènes, les séquences qui codent pour les protéines.
"L'ADN a de nombreuses fonctions qui vont au-delà du codage des protéines. Certaines séquences régulent les gènes, d'autres servent à des fins structurelles, la plupart des séquences remplissent plusieurs fonctions à la fois. Actuellement, nous ne comprenons pas la signification de la plus grande partie de l'ADN. Pour les domaines extérieurs aux gènes, il semble que nous n'ayons fait qu'effleurer la surface. C'est là que l'IA et les Large Language Models peuvent nous aider", explique le Dr Anna Poetsch, chef de groupe de recherche à BIOTEC.
L'ADN comme langage
Les Large Language Models comme le GPT ont changé notre compréhension du langage. Entraînés exclusivement avec du texte, les modèles linguistiques ont développé la capacité d'utiliser le langage dans de nombreux contextes.
"L'ADN est le code de la vie. Pourquoi ne pas le traiter comme un langage ?", demande le Dr Poetsch. L'équipe de Poetsch a entraîné un Large Language Model sur un génome humain de référence. L'outil qui en résulte, appelé GROVER, ou "Genome Rules Obtained via Extracted Representations", peut être utilisé pour extraire la signification biologique de l'ADN.
"GROVER" a appris les règles de l'ADN. En ce qui concerne le langage, nous parlons de grammaire, de syntaxe et de sémantique. Pour l'ADN, cela signifie apprendre les règles des séquences, l'ordre des nucléotides et des séquences ainsi que leur signification. De la même manière que les modèles GPT apprennent les langues humaines, GROVER a essentiellement appris à 'parler ADN'", explique le Dr Melissa Sanabria, la chercheuse à l'origine du projet.
L'équipe a montré que GROVER peut non seulement prédire avec précision les séquences d'ADN suivantes, mais qu'il peut également être utilisé pour extraire des informations de signification biologique à partir du contexte. Par exemple, il est possible d'identifier le début des gènes ou les sites de liaison des protéines sur l'ADN. GROVER apprend également des processus généralement considérés comme "épigénétiques", c'est-à-dire ceux qui ont lieu sur l'ADN et qui n'étaient pas considérés comme "codés" jusqu'à présent.
"Il est fascinant de constater qu'en entraînant GROVER uniquement avec la séquence d'ADN, sans données fonctionnelles supplémentaires, nous pouvons effectivement extraire des informations sur la fonction biologique. Pour nous, cela montre que la fonction, y compris certaines informations épigénétiques, est également codée dans la séquence", explique le Dr Sanabria.
Le dictionnaire de l'ADN
"L'ADN ressemble au langage. Il est composé de quatre lettres qui forment des séquences, et les séquences portent une signification. Mais contrairement à un langage, il n'y a pas de concept de mots", explique le Dr Poetsch. L'ADN est composé de quatre lettres (A, T, G et C) et de gènes, mais il n'existe pas de séquences prédéfinies de différentes longueurs qui s'assemblent pour former des gènes ou d'autres séquences porteuses de sens.
Pour entraîner GROVER, l'équipe a d'abord dû créer un dictionnaire d'ADN. Ils ont utilisé une astuce d'algorithmes de compression. "Cette étape est cruciale et distingue notre modèle de langage ADN des tentatives précédentes", explique le Dr Poetsch.
"Nous avons analysé l'ensemble du génome et recherché les combinaisons de lettres qui apparaissent le plus souvent. Nous avons commencé par deux lettres et avons continué à fouiller l'ADN pour en faire les combinaisons multi-lettres les plus fréquentes. De cette façon, en environ 600 cycles, nous avons fragmenté l'ADN en 'mots' qui permettent à GROVER de prédire au mieux la prochaine séquence", explique le Dr Sanabria.
La promesse de l'IA en génomique
GROVER promet de débloquer les différents niveaux du code génétique. L'ADN contient des informations importantes sur ce qui nous définit en tant qu'être humain, nos prédispositions aux maladies et nos réactions aux traitements.
"Nous pensons que la compréhension des règles de l'ADN par le biais d'un modèle linguistique nous aidera à découvrir les profondeurs de la signification biologique cachée dans l'ADN. Cela devrait faire avancer à la fois la génomique et la médecine personnalisée", conclut le Dr Poetsch.
Note: Cet article a été traduit à l'aide d'un système informatique sans intervention humaine. LUMITOS propose ces traductions automatiques pour présenter un plus large éventail d'actualités. Comme cet article a été traduit avec traduction automatique, il est possible qu'il contienne des erreurs de vocabulaire, de syntaxe ou de grammaire. L'article original dans Allemand peut être trouvé ici.