Utiliser l'IA comme tuteur d'examen
L'intelligence artificielle devrait aider les candidats humains à étudier plus efficacement
L'année dernière, l'intelligence artificielle (IA) a passé avec succès divers examens, notamment l'examen d'aptitude médicale aux États-Unis. Aujourd'hui, l'IA est prête à aider les candidats humains à étudier plus efficacement. Avec l'aide d'experts du Forschungszentrum Jülich, la maison d'édition u-form Verlag souhaite mettre au point un tuteur d'IA pour la préparation des examens. Dans le cadre d'un projet de recherche commun avec le centre de services d'IA WestAI, différents modèles linguistiques seront testés et intégrés dans les programmes de formation de la maison d'édition.
"Une partie de notre collaboration consistera à comparer l'adéquation de grands modèles commerciaux tels que GPT-4 et Claude 2 avec des modèles open source, dont l'utilisation est intéressante pour les entreprises pour des raisons de protection des données, par exemple", explique Fritz Niesel, chercheur en IA et consultant au Centre de supercalcul de Jülich.
Un premier cas d'utilisation est l'examen final de la Chambre de commerce et d'industrie (IHK) pour les apprentis commerciaux. U-form Verlag, spécialisé dans la préparation aux examens, propose des programmes de formation correspondants. L'IA devrait permettre d'évaluer automatiquement les réponses en texte libre et de signaler les erreurs aux apprenants.
L'une des questions de l'examen porte par exemple sur les différences entre un "monopole d'approvisionnement" et un "polypoly". Auparavant, les stagiaires ne pouvaient que comparer leurs réponses de manière indépendante avec un exemple de solution. À l'avenir, l'IA leur fournira également un retour direct sur l'exactitude et l'exhaustivité de leurs réponses.
"L'évaluation avec Claude 2 d'Anthropic fonctionne très bien en principe", déclare Fritz Niesel. À certains égards, l'IA est toutefois confrontée aux mêmes problèmes qu'un examinateur humain, car les réponses formulées librement sont parfois ambiguës ou imprécises. Elles ne peuvent pas toujours être clairement classées selon un schéma d'évaluation. Par exemple, le terme allemand "Nachfrager" dans l'exemple de réponse présenté dans l'image pourrait signifier soit plusieurs acheteurs, soit un seul acheteur. Les points attribués sont donc, dans une certaine mesure, une question d'interprétation.
"De nombreux modèles open source sont actuellement beaucoup plus faibles en comparaison. Ils présentent encore d'importantes lacunes, notamment en allemand, et la plupart des modèles ont été formés principalement en anglais", explique Fritz Niesel. Toutefois, le fait que les utilisateurs puissent créer leurs propres applications et les exécuter sur leur propre matériel plaide en faveur de l'open source. De cette manière, les précieuses connaissances de l'entreprise peuvent être protégées d'une distribution non autorisée.
Réponse de Mixtral-8x7B : "La réponse est partiellement correcte, mais pas assez détaillée. Un exemple est donné pour le monopole d'approvisionnement et le polypoly, mais le nombre de fournisseurs et d'acheteurs n'est pas clairement indiqué. Toutefois, une description et un exemple corrects sont utilisés pour le monopole de l'offre, ce qui explique que 2 points soient attribués. Bien qu'une définition correcte soit utilisée pour le polypoly, un exemple et le nombre d'acheteurs manquent, ce qui explique que seul 1 point soit attribué. Un autre point est attribué pour l'utilisation correcte d'un terme".
Dans le cas de test ci-dessus, Mixtral-8x7B aboutit au même résultat que Claude 2. Le modèle linguistique Mixtral-8x7B est considéré par beaucoup comme le meilleur modèle open source actuellement disponible. Cependant, l'explication donnée par Mixtral-8x7B est inférieure à celle de Claude 2, certaines parties étant simplement erronées ou peu claires. Par exemple, aucun exemple de polypoly n'a été donné dans la réponse - contrairement à ce qui était indiqué dans l'explication. Mixtral-8x7B accorde également un point "pour l'utilisation correcte d'un terme". Mais de quel terme s'agit-il ?
"Il s'agit d'une faiblesse typique qui peut être améliorée grâce à une ingénierie rapide - c'est-à-dire des données spécialement adaptées à l'IA - et à un réglage fin", estime Fritz Niesel. Dans le cadre du projet, les partenaires prévoient maintenant d'étudier plus avant si les modèles open source peuvent être utilisés comme tuteurs d'examen d'une manière aussi efficace que les IA commerciales plus puissantes.
WestAI pour l'utilisation innovante de l'IA
La coopération a été rendue possible par le centre de services d'IA WestAI, l'un des quatre centres de services d'IA financés par le ministère fédéral de l'éducation et de la recherche pour faire avancer la recherche sur l'IA et le transfert vers des applications pratiques en Allemagne. L'accent est mis sur la collaboration avec les jeunes entreprises et les petites et moyennes entreprises.
La WestAI fournit aux parties prenantes de l'industrie et de la science un accès aux modèles d'IA et aux infrastructures de calcul de l'IA à haute performance. Les partenaires de la WestAI apportent leur expertise respective de manière ciblée pour aider les entreprises à utiliser les technologies d'IA les plus modernes, à mettre en pratique des idées innovantes et à ouvrir de nouveaux champs d'application. L'accent est mis sur le lancement de nouveaux modèles d'IA multimodale et de modèles d'IA générative.
Note: Cet article a été traduit à l'aide d'un système informatique sans intervention humaine. LUMITOS propose ces traductions automatiques pour présenter un plus large éventail d'actualités. Comme cet article a été traduit avec traduction automatique, il est possible qu'il contienne des erreurs de vocabulaire, de syntaxe ou de grammaire. L'article original dans Anglais peut être trouvé ici.