Un logiciel spécial améliore la précision de l'annotation du génome des animaux et des plantes

"BRAKER3 marque une évolution importante dans le domaine de la bio-informatique et permet aux universitaires du monde entier d'accéder à un outil performant pour l'annotation du génome

21.06.2024
Computer-generated image

Image symbolique

Le nouveau logiciel BRAKER3 permet aux scientifiques du monde entier d'accéder à un instrument très performant pour l'annotation du génome, c'est-à-dire pour l'identification et l'étiquetage de plusieurs caractéristiques pertinentes d'une séquence génomique. Ce logiciel représente une avancée considérable dans la recherche bioinformatique. Il a été développé par des chercheurs de l'université de Greifswald en collaboration avec des collègues du Georgia Institute of Technology d'Atlanta (États-Unis). L'équipe internationale de bioinformatique de Greifswald, dirigée par le professeur Mario Stanke, vient de présenter le logiciel dans la revue Genome Research. BRAKER3 exploite le fait que les mêmes gènes peuvent se retrouver sous une forme similaire dans différentes espèces, même si leur origine évolutive commune est passée depuis longtemps, comme c'est le cas par exemple pour un papillon et une drosophile. Le développement du logiciel a été financé par les National Institutes of Health des États-Unis.

La détermination précise de la structure des gènes codant pour les protéines dans les séquences génomiques est essentielle pour la compréhension biologique de la vie. Le succès de nombreuses expériences dépend dans une large mesure d'une annotation sans erreur du génome. Le catalogage des gènes codant pour les protéines dans les génomes eucaryotes est donc l'un des plus grands défis que doit relever le projet BioGénome de la Terre. Ce projet vise à séquencer les génomes d'au moins 1,5 million d'espèces eucaryotes. Les eucaryotes possèdent des cellules dotées d'un noyau. Les organismes eucaryotes comprennent les animaux, les humains, les plantes et les champignons. Les projets génomiques individuels peuvent être utilisés à des fins telles que : le traitement ciblé des maladies transmises par les animaux, l'étude des fonctions des gènes chez les insectes ou la sélection des plantes.

Un problème central auquel sont confrontés de nombreux outils d'annotation du génome est ce que l'on appelle l'apprentissage supervisé : les modèles mathématiques sous-jacents nécessitent des exemples d'entraînement constitués de gènes de l'espèce cible afin d'ajuster les paramètres à cette espèce cible. C'est là que l'équipe BRAKER3 est en mesure de tirer parti de l'expérience acquise avec les versions précédentes du logiciel, en incluant également les données combinées de la transcriptomique et des protéines dans cette étape d'apprentissage. Contrairement aux versions précédentes de l'outil, les deux types de données peuvent désormais être pris en compte simultanément.

Lors de tests de référence portant sur 11 espèces, BRAKER3 a nettement surpassé les versions précédentes. L'amélioration est particulièrement nette pour les espèces dont le génome est vaste et complexe, comme la souris et le poulet. En outre, la nouvelle version du logiciel est beaucoup plus précise que les programmes alternatifs qui ont été largement utilisés dans le passé.

"BRAKER3 représente une avancée considérable dans la précision et les capacités d'automatisation de l'annotation des génomes eucaryotes, en particulier pour les génomes de grande taille et structurellement complexes", explique Lars Gabriel de l'Institut de mathématiques de l'Université de Greifswald et auteur principal de la publication. "La nouvelle version du logiciel est un outil qui est déjà utilisé par un grand nombre d'utilisateurs, dont le nombre augmente rapidement. Les efforts de l'équipe pour concevoir le logiciel de manière à ce qu'il fonctionne dans des paquets isolés contenant tous les composants requis pour le programme et sur différents systèmes informatiques sans ajustements supplémentaires ont été accueillis de manière particulièrement positive par la communauté internationale des chercheurs. Ce principe, connu sous le nom de "conteneurisation", a été influencé de manière décisive par l'excellente infrastructure de calcul à haute performance du centre informatique universitaire de Greifswald", explique Katharina Hoff, de l'institut de mathématiques de l'université de Greifswald. Katharina Hoff, de l'Institut de mathématiques de l'université de Greifswald, travaille depuis de nombreuses années au développement de BRAKER.

"BRAKER3 marque une évolution importante dans le domaine de la bio-informatique et permet aux universitaires du monde entier d'accéder à un outil très performant pour l'annotation du génome. Au cours des prochaines étapes du développement, les développeurs amélioreront et formeront spécifiquement de grands modèles de langage, car les génomes peuvent être considérés comme un "langage" biologique dont les gènes codés suivent une grammaire stricte", explique le professeur Mario Stanke, chef du groupe de recherche en bioinformatique à l'institut de mathématiques de l'université de Greifswald.

Note: Cet article a été traduit à l'aide d'un système informatique sans intervention humaine. LUMITOS propose ces traductions automatiques pour présenter un plus large éventail d'actualités. Comme cet article a été traduit avec traduction automatique, il est possible qu'il contienne des erreurs de vocabulaire, de syntaxe ou de grammaire. L'article original dans Anglais peut être trouvé ici.

Publication originale

Autres actualités du département science

Actualités les plus lues

Plus actualités de nos autres portails