Les chatbots IA sont-ils adaptés aux hôpitaux ?
Les capacités de diagnostic des grands modèles linguistiques testées
Les grands modèles de langage sont des programmes informatiques formés à partir de quantités massives de texte. Des variantes spécialement entraînées de la technologie à l'origine du ChatGPT permettent même de résoudre presque sans faille les examens finaux des études médicales. Mais une telle IA serait-elle capable de prendre en charge les tâches des médecins dans une salle d'urgence ? Pourrait-elle ordonner les examens appropriés, poser le bon diagnostic et élaborer un plan de traitement sur la base des symptômes du patient ?
Une équipe interdisciplinaire dirigée par Daniel Rückert, professeur d'intelligence artificielle dans les soins de santé et la médecine à la TUM, s'est penchée sur cette question dans la revue "Nature Medicine". Pour la première fois, des médecins et des experts en intelligence artificielle ont étudié de manière systématique l'efficacité des différentes variantes du modèle de langage à grande échelle Llama 2, disponible en libre accès, pour établir des diagnostics.
Reconstitution du parcours entre les urgences et le traitement
Pour tester les capacités de ces algorithmes complexes, les chercheurs ont utilisé les données anonymes d'une clinique américaine. Ils ont sélectionné 2 400 cas dans un ensemble de données plus large. Tous les patients s'étaient présentés aux urgences pour des douleurs abdominales. Chaque description de cas se terminait par l'un des quatre diagnostics et un plan de traitement. Toutes les données enregistrées pour le diagnostic étaient disponibles pour les cas, depuis les antécédents médicaux et les valeurs sanguines jusqu'aux données d'imagerie. "Nous avons préparé les données de manière à ce que les algorithmes puissent simuler les procédures et les processus décisionnels réels de l'hôpital", explique Friederike Jungmann, médecin adjoint au service de radiologie du Klinikum rechts der Isar de la TUM et auteur principal de l'étude avec l'informaticien Paul Hager. "Le programme ne disposait que des informations dont disposaient les vrais médecins. Par exemple, il devait décider lui-même s'il fallait demander une numération sanguine, puis utiliser cette information pour prendre la décision suivante, jusqu'à ce qu'il établisse finalement un diagnostic et un plan de traitement".
L'équipe a constaté qu'aucun des grands modèles linguistiques ne demandait systématiquement tous les examens nécessaires. En fait, les diagnostics des programmes devenaient de moins en moins précis au fur et à mesure qu'ils disposaient d'informations sur le cas. Souvent, ils n'ont pas suivi les directives de traitement, ordonnant parfois des examens qui auraient eu de graves conséquences sur la santé des vrais patients.
Comparaison directe avec les médecins
Dans la deuxième partie de l'étude, les chercheurs ont comparé les diagnostics de l'IA pour un sous-ensemble de données avec les diagnostics de quatre médecins. Alors que ces derniers ont posé 89 % de diagnostics corrects, le meilleur modèle de langage étendu n'a posé que 73 % de diagnostics corrects. Chaque modèle a reconnu certaines maladies mieux que d'autres. Dans un cas extrême, un modèle a correctement diagnostiqué une inflammation de la vésicule biliaire dans seulement 13 % des cas.
Un autre problème qui disqualifie les programmes pour un usage quotidien est leur manque de robustesse : le diagnostic posé par un grand modèle linguistique dépendait, entre autres, de l'ordre dans lequel il recevait les informations. Des subtilités linguistiques ont également influencé le résultat - par exemple, si le programme était invité à établir un "diagnostic principal", un "diagnostic primaire" ou un "diagnostic final". Dans la pratique clinique quotidienne, ces termes sont généralement interchangeables.
ChatGPT non testé
L'équipe n'a pas testé les modèles de langage commerciaux d'OpenAI (ChatGPT) et de Google pour deux raisons principales. Premièrement, le fournisseur des données hospitalières a interdit le traitement des données avec ces modèles pour des raisons de protection des données. Deuxièmement, les experts conseillent vivement de n'utiliser que des logiciels libres pour les applications dans le secteur de la santé.
"Ce n'est qu'avec des modèles à code source ouvert que les hôpitaux disposent d'un contrôle et d'une connaissance suffisants pour garantir la sécurité des patients. Lorsque nous testons les modèles, il est essentiel de savoir quelles données ont été utilisées pour les former. Sinon, nous risquons de les tester avec les mêmes questions et réponses que celles sur lesquelles ils ont été formés. Bien entendu, les entreprises gardent leurs données de formation très secrètes, ce qui rend difficile toute évaluation équitable", explique Paul Hager. "En outre, il est dangereux de baser l'infrastructure médicale clé sur des services externes qui mettent à jour et modifient les modèles à leur guise. Dans le pire des cas, un service dont dépendent des centaines de cliniques pourrait être fermé parce qu'il n'est pas rentable."
Des progrès rapides
Les développements de cette technologie progressent rapidement. "Il est tout à fait possible que, dans un avenir proche, un grand modèle linguistique soit mieux adapté pour établir un diagnostic à partir des antécédents médicaux et des résultats d'examens", déclare le professeur Daniel Rückert. "C'est pourquoi nous avons mis notre environnement de test à la disposition de tous les groupes de recherche qui souhaitent tester des modèles linguistiques de grande taille dans un contexte clinique. M. Rückert voit le potentiel de cette technologie : "À l'avenir, les grands modèles linguistiques pourraient devenir des outils importants pour les médecins, par exemple pour discuter d'un cas. Cependant, nous devons toujours être conscients des limites et des particularités de cette technologie et en tenir compte lors de la création d'applications", déclare l'expert en IA médicale."
Note: Cet article a été traduit à l'aide d'un système informatique sans intervention humaine. LUMITOS propose ces traductions automatiques pour présenter un plus large éventail d'actualités. Comme cet article a été traduit avec traduction automatique, il est possible qu'il contienne des erreurs de vocabulaire, de syntaxe ou de grammaire. L'article original dans Anglais peut être trouvé ici.
Publication originale
Paul Hager, Friederike Jungmann, Robbie Holland, Kunal Bhagat, Inga Hubrecht, Manuel Knauer, Jakob Vielhauer, Marcus Makowski, Rickmer Braren, Georgios Kaissis, Daniel Rueckert; "Evaluation and mitigation of the limitations of large language models in clinical decision-making"; Nature Medicine, 2024-7-4