Les chatbots IA sont-ils adaptés aux hôpitaux ?

Les capacités de diagnostic des grands modèles linguistiques testées

24.07.2024

Image symbolique

Computer-generated image

Les grands modèles de langage peuvent passer les examens médicaux avec brio, mais les utiliser pour établir des diagnostics relèverait actuellement de la négligence grave. Les chatbots médicaux posent des diagnostics hâtifs, ne respectent pas les lignes directrices et mettraient la vie des patients en danger. Telle est la conclusion à laquelle est parvenue une équipe de la TUM. Pour la première fois, ils ont étudié de manière systématique si cette forme d'intelligence artificielle (IA) serait adaptée à la pratique clinique quotidienne. Malgré les lacunes actuelles, les chercheurs voient un potentiel dans cette technologie. Ils ont publié une méthode qui peut être utilisée pour tester la fiabilité des futurs chatbots médicaux.

Les grands modèles de langage sont des programmes informatiques formés à partir de quantités massives de texte. Des variantes spécialement entraînées de la technologie à l'origine du ChatGPT permettent même de résoudre presque sans faille les examens finaux des études médicales. Mais une telle IA serait-elle capable de prendre en charge les tâches des médecins dans une salle d'urgence ? Pourrait-elle ordonner les examens appropriés, poser le bon diagnostic et élaborer un plan de traitement sur la base des symptômes du patient ?

Une équipe interdisciplinaire dirigée par Daniel Rückert, professeur d'intelligence artificielle dans les soins de santé et la médecine à la TUM, s'est penchée sur cette question dans la revue "Nature Medicine". Pour la première fois, des médecins et des experts en intelligence artificielle ont étudié de manière systématique l'efficacité des différentes variantes du modèle de langage à grande échelle Llama 2, disponible en libre accès, pour établir des diagnostics.

analytica 2024 confirme sa position de premier salon mondial du secteur des laboratoires

L'accent mis sur la numérisation et la durabilité dans le laboratoire du futur

Lire le actualité

Reconstitution du parcours entre les urgences et le traitement

Pour tester les capacités de ces algorithmes complexes, les chercheurs ont utilisé les données anonymes d'une clinique américaine. Ils ont sélectionné 2 400 cas dans un ensemble de données plus large. Tous les patients s'étaient présentés aux urgences pour des douleurs abdominales. Chaque description de cas se terminait par l'un des quatre diagnostics et un plan de traitement. Toutes les données enregistrées pour le diagnostic étaient disponibles pour les cas, depuis les antécédents médicaux et les valeurs sanguines jusqu'aux données d'imagerie. "Nous avons préparé les données de manière à ce que les algorithmes puissent simuler les procédures et les processus décisionnels réels de l'hôpital", explique Friederike Jungmann, médecin adjoint au service de radiologie du Klinikum rechts der Isar de la TUM et auteur principal de l'étude avec l'informaticien Paul Hager. "Le programme ne disposait que des informations dont disposaient les vrais médecins. Par exemple, il devait décider lui-même s'il fallait demander une numération sanguine, puis utiliser cette information pour prendre la décision suivante, jusqu'à ce qu'il établisse finalement un diagnostic et un plan de traitement".

L'équipe a constaté qu'aucun des grands modèles linguistiques ne demandait systématiquement tous les examens nécessaires. En fait, les diagnostics des programmes devenaient de moins en moins précis au fur et à mesure qu'ils disposaient d'informations sur le cas. Souvent, ils n'ont pas suivi les directives de traitement, ordonnant parfois des examens qui auraient eu de graves conséquences sur la santé des vrais patients.

Comparaison directe avec les médecins

Dans la deuxième partie de l'étude, les chercheurs ont comparé les diagnostics de l'IA pour un sous-ensemble de données avec les diagnostics de quatre médecins. Alors que ces derniers ont posé 89 % de diagnostics corrects, le meilleur modèle de langage étendu n'a posé que 73 % de diagnostics corrects. Chaque modèle a reconnu certaines maladies mieux que d'autres. Dans un cas extrême, un modèle a correctement diagnostiqué une inflammation de la vésicule biliaire dans seulement 13 % des cas.

Un autre problème qui disqualifie les programmes pour un usage quotidien est leur manque de robustesse : le diagnostic posé par un grand modèle linguistique dépendait, entre autres, de l'ordre dans lequel il recevait les informations. Des subtilités linguistiques ont également influencé le résultat - par exemple, si le programme était invité à établir un "diagnostic principal", un "diagnostic primaire" ou un "diagnostic final". Dans la pratique clinique quotidienne, ces termes sont généralement interchangeables.

ChatGPT non testé

L'équipe n'a pas testé les modèles de langage commerciaux d'OpenAI (ChatGPT) et de Google pour deux raisons principales. Premièrement, le fournisseur des données hospitalières a interdit le traitement des données avec ces modèles pour des raisons de protection des données. Deuxièmement, les experts conseillent vivement de n'utiliser que des logiciels libres pour les applications dans le secteur de la santé.

"Ce n'est qu'avec des modèles à code source ouvert que les hôpitaux disposent d'un contrôle et d'une connaissance suffisants pour garantir la sécurité des patients. Lorsque nous testons les modèles, il est essentiel de savoir quelles données ont été utilisées pour les former. Sinon, nous risquons de les tester avec les mêmes questions et réponses que celles sur lesquelles ils ont été formés. Bien entendu, les entreprises gardent leurs données de formation très secrètes, ce qui rend difficile toute évaluation équitable", explique Paul Hager. "En outre, il est dangereux de baser l'infrastructure médicale clé sur des services externes qui mettent à jour et modifient les modèles à leur guise. Dans le pire des cas, un service dont dépendent des centaines de cliniques pourrait être fermé parce qu'il n'est pas rentable."

Des progrès rapides

Les développements de cette technologie progressent rapidement. "Il est tout à fait possible que, dans un avenir proche, un grand modèle linguistique soit mieux adapté pour établir un diagnostic à partir des antécédents médicaux et des résultats d'examens", déclare le professeur Daniel Rückert. "C'est pourquoi nous avons mis notre environnement de test à la disposition de tous les groupes de recherche qui souhaitent tester des modèles linguistiques de grande taille dans un contexte clinique. M. Rückert voit le potentiel de cette technologie : "À l'avenir, les grands modèles linguistiques pourraient devenir des outils importants pour les médecins, par exemple pour discuter d'un cas. Cependant, nous devons toujours être conscients des limites et des particularités de cette technologie et en tenir compte lors de la création d'applications", déclare l'expert en IA médicale."

Note: Cet article a été traduit à l'aide d'un système informatique sans intervention humaine. LUMITOS propose ces traductions automatiques pour présenter un plus large éventail d'actualités. Comme cet article a été traduit avec traduction automatique, il est possible qu'il contienne des erreurs de vocabulaire, de syntaxe ou de grammaire. L'article original dans Anglais peut être trouvé ici.

Publication originale

Paul Hager, Friederike Jungmann, Robbie Holland, Kunal Bhagat, Inga Hubrecht, Manuel Knauer, Jakob Vielhauer, Marcus Makowski, Rickmer Braren, Georgios Kaissis, Daniel Rueckert; "Evaluation and mitigation of the limitations of large language models in clinical decision-making"; Nature Medicine, 2024-7-4

https://www.bionity.com/fr/news/1184021/les-chatbots-ia-sont-ils-adaptes-aux-hopitaux.html

Publication originale

Sujets

intelligence artificielle

Afficher plus

Organisations

TUM

Tous les fabricants d'autoclaves en un coup d'œil

Cliquez sur l'aperçu

Plus dans le département science S'abonner à la newsletter

Recevez les dernières actualités du secteur des sciences de la vie

Les chatbots IA sont-ils adaptés aux hôpitaux ?

Les capacités de diagnostic des grands modèles linguistiques testées

analytica 2024 confirme sa position de premier salon mondial du secteur des laboratoires

Reconstitution du parcours entre les urgences et le traitement

Comparaison directe avec les médecins

ChatGPT non testé

Des progrès rapides

Publication originale

QIAGEN acquiert Genoox

Autres actualités du département science

Pizzas prêtes à consommer & Co : comment le fast food nuit au cerveau

Effet secondaire inattendu : comment des médicaments courants ouvrent la voie aux agents pathogènes

Des scientifiques découvrent les secrets de l'ADN pour améliorer les caractéristiques des cultures de maïs

Du COVID au cancer, un nouveau test à domicile détecte les maladies avec une précision étonnante

Nouvelle arme contre l’antibiorésistance

Cryo-microscopie électronique - Décodage du cycle de réaction d'une enzyme de fixation du CO2

Moins de sucre pendant la grossesse, moins de maladies chroniques

Course aux armements moléculaires : comment le génome se défend contre ses ennemis internes

Un remplacement possible du plastique pourrait conduire à des matériaux plus résistants et plus respectueux de l'environnement pour un usage quotidien

Séquençage d'un virus de la grippe vieux de plus de 100 ans

Plus de 400 types différents de cellules nerveuses ont été cultivés, soit beaucoup plus que jamais auparavant

Une nouvelle technique d'imagerie sans étiquette permet de suivre le traitement du cancer dans des cellules uniques

Nouvelle étude sur la compréhension du fonctionnement des protéines grâce à l'intelligence artificielle

Étude de l'activité des kinases dans les cellules vivantes : les scientifiques construisent un outil d'enregistrement moléculaire

L'évolution des cellules cancéreuses décodée

Bio-Navi lutte contre un système immunitaire mal orienté

Une équipe de chercheurs fait une percée dans la lutte écologique contre les nuisibles envahissants

Nouveaux organoïdes hépatiques dérivés de cellules souches humaines

Production des époxydes souhaités à partir de polluants

Ce que le génome des araignées de mer révèle sur leur étrange anatomie

Recevez les dernières actualités du secteur des sciences de la vie

Actualités les plus lues

Microbe de l'année 2023 : Bacillus subtilis - pour la santé et la technologie

L'accumulation de fer dans le cerveau est liée à un risque accru de troubles du mouvement

Le peroxyde d'hydrogène comme cible dans la lutte contre le cancer ?

Les courtes siestes augmentent la probabilité d'avoir des éclairs de lucidité

Le QI ne reste pas le même tout au long de la vie

Les antibiotiques font des ravages sur les performances sportives

Frank Winkler reçoit le Prix du cerveau 2025

Comment la graisse s'empare des ganglions lymphatiques avec l'âge

Le champignon Pharaoh's Curse transformé pour lutter contre la leucémie

Pas de crème ni de sucre : le café noir réduit le risque de décès

Des microbes transforment des déchets plastiques en paracétamol

La Commission lance une nouvelle stratégie pour faire de l'Europe un leader mondial des sciences du vivant d'ici 2030

Plus actualités de nos autres portails

Des chimistes produisent pour la première fois de l'hexazote - la substance la plus énergétique jamais formée

L'épeautre : aussi bon que sa réputation ?

De l'engrais à la source d'énergie du futur

Nouveauté : Le Spritz - l'apéritif violet prêt à boire

Les géants de la chimie dévoilés

Le jus d'ananas est rare et cher en raison d'une faible récolte

Mise en service : BASF démarre une nouvelle usine de taille mondiale pour l'hexaméthylènediamine à Chalampé, en France

Mars acquiert la marque de snacks aux fruits entiers Trü Frü

Percée dans la recherche sur les matériaux : le métal qui ne se dilate pas

Perdre du poids grâce à la bière

La start-up Oxyle annonce une nouvelle solution pour les PFAS particulièrement tenaces

Pourquoi l'huile de lin stockée a-t-elle un goût amer ?

Percée dans le raffinage du lithium à partir du chlorure de lithium

Les épinards réchauffés sont-ils toxiques ?

Brenntag Essentials acquiert Gefahrstoffzentrum (GSZ) Kaiserslautern

De petites quantités de réglisse augmentent la tension artérielle

Une start-up veut construire la première centrale à fusion au monde basée sur un stellarator dans les années 2030

Tic Tac lance le nouveau "Tic Tac Two" : deux couches, deux goûts, pour deux fois plus de plaisir

Production plus efficace d'hydrogène "vert" grâce à un nouveau matériau combiné

Magnum est à la pointe de la tendance en matière d'aliments d'ambiance avec une nouvelle gamme innovante

Tous les fabricants d'autoclaves en un coup d'œil