Une clé pour analyser des millions de cellules individuelles
L'intelligence artificielle en biomédecine
Notre corps est constitué d'environ 75 milliards de cellules. Mais quelle est la fonction de chaque cellule et dans quelle mesure les cellules d'une personne en bonne santé diffèrent-elles de celles d'une personne atteinte d'une maladie ? Pour tirer des conclusions, d'énormes quantités de données doivent être analysées et interprétées. Les méthodes d'apprentissage automatique sont utilisées à cette fin. Des chercheurs de l'université technique de Munich (TUM) et du Helmholtz Munich ont testé l'apprentissage auto-supervisé comme une approche prometteuse pour tester 20 millions de cellules ou plus.
Ces dernières années, les chercheurs ont fait des progrès considérables dans le domaine de la technologie de la cellule unique. Celle-ci permet d'étudier les tissus sur la base de cellules individuelles et de déterminer simplement les diverses fonctions des différents types de cellules. L'analyse peut être utilisée, par exemple, pour faire des comparaisons avec des cellules saines afin de découvrir comment le tabagisme, le cancer du poumon ou une infection par le COVID modifient les structures cellulaires individuelles dans le poumon.
En même temps, l'analyse génère des quantités de données de plus en plus importantes. Les chercheurs ont l'intention d'appliquer des méthodes d'apprentissage automatique pour soutenir le processus de réinterprétation des ensembles de données existants, tirer des conclusions des modèles et appliquer les résultats à d'autres domaines.
L'apprentissage auto-supervisé : une nouvelle approche
Fabian Theis est titulaire de la chaire de modélisation mathématique des systèmes biologiques à la TUM. Avec son équipe, il a cherché à savoir si l'apprentissage auto-supervisé est mieux adapté que d'autres méthodes à l'analyse de grandes quantités de données. L'étude a été publiée récemment dans Nature Machine Intelligence. Cette forme d'apprentissage automatique fonctionne avec des données non étiquetées. Aucun échantillon de données classifiées n'est requis au préalable. Cela signifie qu'il n'est pas nécessaire de classer à l'avance les données dans certains groupes. Les données non étiquetées sont disponibles en grandes quantités et permettent une représentation robuste d'énormes volumes de données.
L'apprentissage auto-supervisé repose sur deux méthodes. Dans l'apprentissage masqué - comme son nom l'indique - une partie des données d'entrée est masquée et le modèle est entraîné à reconstruire les éléments manquants. En outre, les chercheurs appliquent l'apprentissage contrastif, dans lequel le modèle apprend à combiner des données similaires et à séparer des données dissemblables.
L'équipe a utilisé les deux méthodes d'apprentissage auto-supervisé pour tester plus de 20 millions de cellules individuelles et les a comparées aux résultats des méthodes d'apprentissage classiques. Dans leur évaluation des différentes méthodes, les chercheurs se sont concentrés sur des tâches telles que la prédiction des types de cellules et la reconstruction de l'expression des gènes.
Perspectives de développement de cellules virtuelles
Les résultats de l'étude montrent que l'apprentissage auto-supervisé améliore les performances, en particulier pour les tâches de transfert, c'est-à-dire lorsqu'il s'agit d'analyser des ensembles de données plus petits en s'appuyant sur des informations provenant d'un ensemble de données auxiliaires plus important. En outre, les résultats des prédictions de cellules à partir de zéro - en d'autres termes, les tâches effectuées sans pré-entraînement - sont également prometteurs. La comparaison entre l'apprentissage masqué et l'apprentissage contrastif montre que l'apprentissage masqué est mieux adapté aux applications utilisant de grands ensembles de données unicellulaires.
Les chercheurs utilisent ces données pour travailler au développement de cellules virtuelles. Il s'agit de modèles informatiques complets qui reflètent la diversité des cellules dans différents ensembles de données. Ces modèles sont prometteurs pour l'analyse des changements cellulaires observés dans les maladies, par exemple. Les résultats de l'étude donnent des indications précieuses sur la manière dont ces modèles pourraient être entraînés plus efficacement et optimisés.
Note: Cet article a été traduit à l'aide d'un système informatique sans intervention humaine. LUMITOS propose ces traductions automatiques pour présenter un plus large éventail d'actualités. Comme cet article a été traduit avec traduction automatique, il est possible qu'il contienne des erreurs de vocabulaire, de syntaxe ou de grammaire. L'article original dans Anglais peut être trouvé ici.