Intelligence artificielle : des résultats inattendus
Cheminformatics jette un coup d'œil dans les coulisses de l'apprentissage automatique dans la recherche sur les médicaments
Quelle molécule médicamenteuse est la plus efficace ? Les chercheurs sont fébrilement à la recherche de substances actives efficaces pour lutter contre les maladies. Ces composés s'arriment souvent à des protéines, qui sont généralement des enzymes ou des récepteurs qui déclenchent une chaîne spécifique d'actions physiologiques. Dans certains cas, certaines molécules sont également destinées à bloquer des réactions indésirables dans l'organisme, comme une réponse inflammatoire excessive. Compte tenu de l'abondance des composés chimiques disponibles, cette recherche s'apparente à première vue à la recherche d'une aiguille dans une botte de foin. La découverte de médicaments tente donc d'utiliser des modèles scientifiques pour prédire quelles molécules s'amarreront le mieux à la protéine cible respective et s'y lieront fortement. Ces candidats médicaments potentiels sont ensuite étudiés plus en détail dans le cadre d'études expérimentales.
Depuis les progrès de l'IA, la recherche en matière de découverte de médicaments fait de plus en plus appel à des applications d'apprentissage automatique. Les réseaux neuronaux graphiques (GNN) constituent l'une des nombreuses possibilités de telles applications. Ils sont adaptés pour prédire, par exemple, la force avec laquelle une certaine molécule se lie à une protéine cible. À cette fin, les modèles GNN sont entraînés avec des graphes qui représentent des complexes formés entre des protéines et des composés chimiques (ligands). Les graphes sont généralement constitués de nœuds représentant des objets et d'arêtes représentant les relations entre les nœuds. Dans les représentations graphiques des complexes protéine-ligand, les arêtes relient uniquement les nœuds protéine ou ligand, représentant respectivement leurs structures, ou les nœuds protéine et ligand, représentant des interactions protéine-ligand spécifiques.
"La manière dont les GNN parviennent à leurs prédictions est comme une boîte noire dans laquelle nous ne pouvons pas jeter un coup d'œil", explique le professeur Jürgen Bajorath. Le chercheur en chimio-informatique de l'Institut LIMES de l'Université de Bonn, du Centre international des technologies de l'information de Bonn-Aachen (B-IT) et de l'Institut Lamarr pour l'apprentissage automatique et l'intelligence artificielle de Bonn, ainsi que des collègues de l'Université Sapienza de Rome, ont analysé en détail si les réseaux de graphes neuronaux apprennent réellement les interactions protéine-ligand pour prédire la force avec laquelle une substance active se lie à une protéine cible.
Comment les applications de l'IA fonctionnent-elles ?
Les chercheurs ont analysé un total de six architectures GNN différentes à l'aide de leur méthode "EdgeSHAPer" spécialement mise au point et d'une méthodologie de comparaison différente sur le plan conceptuel. Ces programmes informatiques permettent de déterminer si les GNN apprennent les interactions les plus importantes entre un composé et une protéine et prédisent ainsi la puissance du ligand, comme l'ont voulu et prévu les chercheurs, ou si l'IA parvient à ces prédictions par d'autres moyens. "Les GNN sont très dépendants des données avec lesquelles ils sont formés", explique le premier auteur de l'étude, Andrea Mastropietro, doctorant à l'université Sapienza de Rome, qui a effectué une partie de sa recherche doctorale dans le groupe du professeur Bajorath à Bonn.
Les scientifiques ont entraîné les six GNN à l'aide de graphiques extraits de structures de complexes protéine-ligand, pour lesquels le mode d'action et la force de liaison des composés à leurs protéines cibles étaient déjà connus grâce à des expériences. Les GNN entraînés ont ensuite été testés sur d'autres complexes. L'analyse EdgeSHAPer qui a suivi a permis de comprendre comment les GNN ont généré des prédictions apparemment prometteuses.
"Si les GNN font ce qu'on attend d'eux, ils doivent apprendre les interactions entre le composé et la protéine cible et les prédictions devraient être déterminées en donnant la priorité à des interactions spécifiques", explique le professeur Bajorath. Or, selon les analyses de l'équipe de recherche, les six GNN n'y sont pas parvenus. La plupart des GNN n'ont appris que quelques interactions protéine-médicament et se sont principalement concentrés sur les ligands. Bajorath : "Pour prédire la force de liaison d'une molécule à une protéine cible, les modèles se sont principalement "souvenus" des molécules chimiquement similaires qu'ils avaient rencontrées pendant l'entraînement et de leurs données de liaison, quelle que soit la protéine cible. Ces similitudes chimiques apprises ont alors essentiellement déterminé les prédictions".
Selon les scientifiques, ce phénomène rappelle largement l'effet "Clever Hans". Cet effet fait référence à un cheval qui pouvait apparemment compter. La fréquence à laquelle Hans tapait du sabot était censée indiquer le résultat d'un calcul. Il s'est avéré par la suite que le cheval n'était pas du tout capable de calculer, mais qu'il déduisait les résultats attendus à partir des nuances dans les expressions faciales et les gestes de son compagnon.
Que signifient ces résultats pour la recherche sur les médicaments ? "Il n'est généralement pas possible de soutenir que les GNN apprennent les interactions chimiques entre les substances actives et les protéines", déclare le scientifique spécialiste de l'informatique chimique. Leurs prédictions sont largement surestimées, car des prévisions de qualité équivalente peuvent être faites à l'aide de connaissances chimiques et de méthodes plus simples. Cependant, la recherche offre également des possibilités d'IA. Deux des modèles GNN examinés ont montré une nette tendance à apprendre davantage d'interactions lorsque la puissance des composés testés augmentait. "Cela vaut la peine d'y regarder de plus près", déclare M. Bajorath. Ces GNN pourraient peut-être être améliorés dans la direction souhaitée en modifiant les représentations et les techniques d'apprentissage. Toutefois, l'hypothèse selon laquelle des quantités physiques peuvent être apprises sur la base de graphes moléculaires doit généralement être traitée avec prudence. "L'IA n'est pas de la magie noire", affirme M. Bajorath.
Encore plus de lumière dans les ténèbres de l'IA
En fait, il considère la précédente publication en libre accès de EdgeSHAPer et d'autres outils d'analyse spécialement développés comme des approches prometteuses pour faire la lumière sur la boîte noire des modèles d'IA. L'approche de son équipe se concentre actuellement sur les GNN et les nouveaux "modèles de langage chimique". "Le développement de méthodes permettant d'expliquer les prédictions de modèles complexes est un domaine important de la recherche en IA. Il existe également des approches pour d'autres architectures de réseau, telles que les modèles de langage, qui permettent de mieux comprendre comment l'apprentissage automatique parvient à ses résultats", explique M. Bajorath. Il s'attend à ce que des choses passionnantes se produisent bientôt dans le domaine de l'"IA explicable" à l'Institut Lamarr, où il est chercheur principal et titulaire de la chaire d'IA dans les sciences de la vie.
Note: Cet article a été traduit à l'aide d'un système informatique sans intervention humaine. LUMITOS propose ces traductions automatiques pour présenter un plus large éventail d'actualités. Comme cet article a été traduit avec traduction automatique, il est possible qu'il contienne des erreurs de vocabulaire, de syntaxe ou de grammaire. L'article original dans Anglais peut être trouvé ici.