Déchiffrer le code de la vie : Un nouveau modèle d'IA décrypte le langage caché de l'ADN

07.08.2024

Représentation artistique du Large Language Model entraîné sur des séquences d'ADN.

Magdalena Gonciarz generiert mit Dall-E3

Annonces

Technologie avancée de développement de lignées de cellules CHO pour une mise en œuvre en interne

Criblage et purification de biomolécules de grande taille dans des plaques multipuits

Plate-forme TFF rationalisée à usage unique pour le développement de procédés jusqu'à la fabrication pilote

Des scientifiques de l'université technique de Dresde ont entraîné un modèle de grand langage avec de l'ADN humain. Les chercheurs peuvent ainsi tenter de décrypter les informations complexes cachées dans notre génome. L'IA traite l'ADN humain comme un langage, apprend ses règles et ses relations pour en déduire des informations fonctionnelles sur les séquences d'ADN. Ce nouvel outil, publié dans "Nature Machine Intelligence", a le potentiel de révolutionner la génomique et de faire progresser la médecine personnalisée.

L'ADN contient les informations fondamentales de la vie. Comprendre comment ces informations sont stockées et organisées a été et reste l'un des plus grands défis scientifiques du siècle dernier. Grâce à GROVER, un nouveau Large Language Model (modèle de grand langage) entraîné avec de l'ADN humain, les chercheurs peuvent désormais tenter de décrypter les informations complexes cachées dans notre génome.

Développé par une équipe du Centre de biotechnologie (BIOTEC) de l'Université technique de Dresde, GROVER traite l'ADN humain comme un langage et apprend ses règles et ses relations afin de déduire des informations fonctionnelles sur les séquences d'ADN. Ce nouvel outil, publié dans "Nature Machine Intelligence", a le potentiel de révolutionner la génomique et de faire progresser la médecine personnalisée.

Depuis la découverte de la double hélice, les chercheurs sont à la recherche du savoir codé dans l'ADN. Soixante-dix ans plus tard, il est clair que les informations cachées dans l'ADN sont multiples. Seuls 1 à 2 pour cent du génome sont constitués de gènes, les séquences qui codent pour les protéines.

"L'ADN a de nombreuses fonctions qui vont au-delà du codage des protéines. Certaines séquences régulent les gènes, d'autres servent à des fins structurelles, la plupart des séquences remplissent plusieurs fonctions à la fois. Actuellement, nous ne comprenons pas la signification de la plus grande partie de l'ADN. Pour les domaines extérieurs aux gènes, il semble que nous n'ayons fait qu'effleurer la surface. C'est là que l'IA et les Large Language Models peuvent nous aider", explique le Dr Anna Poetsch, chef de groupe de recherche à BIOTEC.

L'ADN comme langage

Les Large Language Models comme le GPT ont changé notre compréhension du langage. Entraînés exclusivement avec du texte, les modèles linguistiques ont développé la capacité d'utiliser le langage dans de nombreux contextes.

"L'ADN est le code de la vie. Pourquoi ne pas le traiter comme un langage ?", demande le Dr Poetsch. L'équipe de Poetsch a entraîné un Large Language Model sur un génome humain de référence. L'outil qui en résulte, appelé GROVER, ou "Genome Rules Obtained via Extracted Representations", peut être utilisé pour extraire la signification biologique de l'ADN.

"GROVER" a appris les règles de l'ADN. En ce qui concerne le langage, nous parlons de grammaire, de syntaxe et de sémantique. Pour l'ADN, cela signifie apprendre les règles des séquences, l'ordre des nucléotides et des séquences ainsi que leur signification. De la même manière que les modèles GPT apprennent les langues humaines, GROVER a essentiellement appris à 'parler ADN'", explique le Dr Melissa Sanabria, la chercheuse à l'origine du projet.

L'équipe a montré que GROVER peut non seulement prédire avec précision les séquences d'ADN suivantes, mais qu'il peut également être utilisé pour extraire des informations de signification biologique à partir du contexte. Par exemple, il est possible d'identifier le début des gènes ou les sites de liaison des protéines sur l'ADN. GROVER apprend également des processus généralement considérés comme "épigénétiques", c'est-à-dire ceux qui ont lieu sur l'ADN et qui n'étaient pas considérés comme "codés" jusqu'à présent.

"Il est fascinant de constater qu'en entraînant GROVER uniquement avec la séquence d'ADN, sans données fonctionnelles supplémentaires, nous pouvons effectivement extraire des informations sur la fonction biologique. Pour nous, cela montre que la fonction, y compris certaines informations épigénétiques, est également codée dans la séquence", explique le Dr Sanabria.

Le dictionnaire de l'ADN

"L'ADN ressemble au langage. Il est composé de quatre lettres qui forment des séquences, et les séquences portent une signification. Mais contrairement à un langage, il n'y a pas de concept de mots", explique le Dr Poetsch. L'ADN est composé de quatre lettres (A, T, G et C) et de gènes, mais il n'existe pas de séquences prédéfinies de différentes longueurs qui s'assemblent pour former des gènes ou d'autres séquences porteuses de sens.

Pour entraîner GROVER, l'équipe a d'abord dû créer un dictionnaire d'ADN. Ils ont utilisé une astuce d'algorithmes de compression. "Cette étape est cruciale et distingue notre modèle de langage ADN des tentatives précédentes", explique le Dr Poetsch.

"Nous avons analysé l'ensemble du génome et recherché les combinaisons de lettres qui apparaissent le plus souvent. Nous avons commencé par deux lettres et avons continué à fouiller l'ADN pour en faire les combinaisons multi-lettres les plus fréquentes. De cette façon, en environ 600 cycles, nous avons fragmenté l'ADN en 'mots' qui permettent à GROVER de prédire au mieux la prochaine séquence", explique le Dr Sanabria.

La promesse de l'IA en génomique

GROVER promet de débloquer les différents niveaux du code génétique. L'ADN contient des informations importantes sur ce qui nous définit en tant qu'être humain, nos prédispositions aux maladies et nos réactions aux traitements.

"Nous pensons que la compréhension des règles de l'ADN par le biais d'un modèle linguistique nous aidera à découvrir les profondeurs de la signification biologique cachée dans l'ADN. Cela devrait faire avancer à la fois la génomique et la médecine personnalisée", conclut le Dr Poetsch.

Note: Cet article a été traduit à l'aide d'un système informatique sans intervention humaine. LUMITOS propose ces traductions automatiques pour présenter un plus large éventail d'actualités. Comme cet article a été traduit avec traduction automatique, il est possible qu'il contienne des erreurs de vocabulaire, de syntaxe ou de grammaire. L'article original dans Allemand peut être trouvé ici.

https://www.bionity.com/fr/news/1184137/dechiffrer-le-code-de-la-vie-un-nouveau-modele-d-ia-decrypte-le-langage-cache-de-l-adn.html

Sujets

ADNs Grands modèles linguistiques génomique intelligence artificielle

Afficher plus

Organisations

TU Dresden

Annonces

Profilage Métabolique Spatial

Test automatisé de l'intégrité des filtres avec gestion avancée des risques de qualité pour la conformité aux BPF

Plate-forme avancée de gestion des données et d'automatisation des bioprocédés

Si près que même
les molécules
deviennent rouges...

Fabricant de spectromètres NIR

Plus dans le département science S'abonner à la newsletter

Recevez les dernières actualités du secteur des sciences de la vie

Déchiffrer le code de la vie : Un nouveau modèle d'IA décrypte le langage caché de l'ADN

L'ADN comme langage

Le dictionnaire de l'ADN

La promesse de l'IA en génomique

Generare lève 20 millions d'euros grâce à des données moléculaires qu'aucun modèle d'IA n'a jamais vues

Autres actualités du département science

L'IA accélère les simulations moléculaires d'un facteur 10 000

Empêcher les protéines cancéreuses de se former avant même qu'elles n'apparaissent ?

L'IA diagnostique les tumeurs cérébrales en quelques minutes au lieu de plusieurs semaines

Comment les théiers modulent la composition chimique de leur saveur

L'IA identifie la nouveauté scientifique

Plus rapide, plus compact, moins cher : les chercheurs de la MHH s'efforcent d'améliorer la production de thérapies cellulaires personnalisées

Les larves d'insectes comme outil de dépistage

Le compte d'épargne bactérien

Un nouveau médicament pourrait ralentir le développement de la maladie d'Alzheimer

Nouvel antibiotique antiviral : la daunorubicine stoppe les bactériophages en provoquant une mort cellulaire prématurée

Ce n'est peut-être pas seulement le contenu des aliments ultra-transformés qui est en cause, mais aussi la façon dont ils sont fabriqués

La chaleur rend malade, et le cerveau en souffre particulièrement

Les macrophages en mode marathon

Découverte de nouveaux antibiotiques pour traiter les germes multirésistants

Pourquoi l'alcool déclenche-t-il des envies de frites et de pizza ?

Des microrobots réparent la moelle épinière

Le piratage des graisses protège contre la mort cellulaire

Des chercheurs résolvent un mystère vieux de 50 ans : comment l'acide élimine l'eau des protéines

Moins d'expériences sur les animaux grâce à une souris virtuelle

Fabrication de plastiques et de cosmétiques neutres pour le climat à l'aide de bactéries

Recevez les dernières actualités du secteur des sciences de la vie

Actualités les plus lues

Les changements alimentaires chez les personnes âgées peuvent améliorer l'"âge biologique

Prolonger la viabilité des organes grâce à la biologie marine

Le chocolat de culture pourrait-il déboucher sur la prochaine révolution alimentaire ?

Miltenyi Biotec agrandit son site de production de réactifs cliniques de Cologne

Un nouveau médicament pourrait ralentir le développement de la maladie d'Alzheimer

Une nouvelle technologie permet de détecter les bactéries sur les surfaces en cinq minutes à l'aide d'un smartphone

Géants endormis : comment des virus cachés se réveillent à l'intérieur des algues et se transmettent aux générations futures

Plus actualités de nos autres portails

Festo supprime environ 1 300 emplois en Allemagne

Produire de l'hydrogène vert à moindre coût

Le recyclage allemand des plastiques au bord de l'effondrement

L'hydrogène vert devient compétitif

BASF vend ses activités dans le domaine des silicates au fournisseur spécialisé PQ

Détection des PFAS en quelques minutes plutôt qu'en quelques semaines : la start-up Grapheal, spécialisée dans les technologies profondes, obtient un financement de l'UE de 2,5 millions d'euros

Les technologies de captage direct de l'air, d'e-méthanol et d'électrolyse du CO₂ remportent un prix de l'innovation

LanzaTech choisit le port de Gand, en mer du Nord, comme site de la première installation commerciale européenne de SAF de l'alcool au jet

L'IA prolonge la durée de vie des batteries des véhicules électriques de 23 % sans ralentir la charge rapide

La technologie de la colle réversible devient électrique

Si près que même les molécules deviennent rouges...

Si près que même
les molécules
deviennent rouges...