Évaluation des capacités de réponse de larges modèles de langage (LLM) pour des questions d'historiens
Mathieu Chartier, Nabil Dakkoune, Guillaume Bourgeois, Stéphane Jean
TL;DR
Ce travail évalue la capacité des grands modèles de langage à répondre à des questions d'histoire en français à travers un banc d'essai de 62 questions mobilisant 10 LLM. Une évaluation humaine de 5 360 réponses révèle une précision globale faible et des problèmes de cohérence, de longueur et d'hallucination, avec des performances qui dépendent fortement du sujet et du format de la question. Même les meilleurs modèles ne garantissent pas des résultats fiables pour l'histoire, et les sorties restent souvent verbeuses ou inexploitables sans extraction ciblée des données. Des perspectives prometteuses émergent toutefois autour de l'entraînement de LLM spécialisés sur des sources historiques et de l'amélioration des prompts et du contrôle linguistique pour soutenir les chercheurs en histoire.
Abstract
Large Language Models (LLMs) like ChatGPT or Bard have revolutionized information retrieval and captivated the audience with their ability to generate custom responses in record time, regardless of the topic. In this article, we assess the capabilities of various LLMs in producing reliable, comprehensive, and sufficiently relevant responses about historical facts in French. To achieve this, we constructed a testbed comprising numerous history-related questions of varying types, themes, and levels of difficulty. Our evaluation of responses from ten selected LLMs reveals numerous shortcomings in both substance and form. Beyond an overall insufficient accuracy rate, we highlight uneven treatment of the French language, as well as issues related to verbosity and inconsistency in the responses provided by LLMs.
