MultiCW: A Large-Scale Balanced Benchmark Dataset for Training Robust Check-Worthiness Detection Models

Martin Hyben; Sebastian Kula; Jan Cegin; Jakub Simko; Ivan Srba; Robert Moro

MultiCW: A Large-Scale Balanced Benchmark Dataset for Training Robust Check-Worthiness Detection Models

Martin Hyben, Sebastian Kula, Jan Cegin, Jakub Simko, Ivan Srba, Robert Moro

TL;DR

The Multi-Check-Worthy (MultiCW) dataset is introduced, a balanced multilingual benchmark for check-worthy claim detection spanning 16 languages, 7 topical domains, and 2 writing styles, and shows that fine-tuned models consistently outperform zero-shot LLMs on claim classification and show strong out-of-distribution generalization across languages, domains, and styles.

Abstract

Large Language Models (LLMs) are beginning to reshape how media professionals verify information, yet automated support for detecting check-worthy claims a key step in the fact-checking process remains limited. We introduce the Multi-Check-Worthy (MultiCW) dataset, a balanced multilingual benchmark for check-worthy claim detection spanning 16 languages, 7 topical domains, and 2 writing styles. It consists of 123,722 samples, evenly distributed between noisy (informal) and structured (formal) texts, with balanced representation of check-worthy and non-check-worthy classes across all languages. To probe robustness, we also introduce an equally balanced out-of-distribution evaluation set of 27,761 samples in 4 additional languages. To provide baselines, we benchmark 3 common fine-tuned multilingual transformers against a diverse set of 15 commercial and open LLMs under zero-shot settings. Our findings show that fine-tuned models consistently outperform zero-shot LLMs on claim classification and show strong out-of-distribution generalization across languages, domains, and styles. MultiCW provides a rigorous multilingual resource for advancing automated fact-checking and enables systematic comparisons between fine-tuned models and cutting-edge LLMs on the check-worthy claim detection task.

MultiCW: A Large-Scale Balanced Benchmark Dataset for Training Robust Check-Worthiness Detection Models

TL;DR

Abstract

Paper Structure (40 sections, 8 figures, 19 tables)

This paper contains 40 sections, 8 figures, 19 tables.

Introduction
Related Work
Check-Worthiness Definition
MultiCW Dataset Construction
Balancing Strategy
Quality Control
Dataset Statistics
Experimental Setup
Fine-Tuned Transformer Models
Training Stability
Zero-shot LLMs
Evaluation Protocol
Results
Fine-Tuned Transformer Models
Observations.
...and 25 more sections

Figures (8)

Figure 1: Topic distribution of the MultiCW dataset.
Figure 2: Topic distribution of the OOD dataset.
Figure 3: Language distribution of the CLEF-2022 dataset.
Figure 4: Language distribution of the CLEF-2023 dataset.
Figure 5: Language distribution of the original MultiClaim dataset.
...and 3 more figures

MultiCW: A Large-Scale Balanced Benchmark Dataset for Training Robust Check-Worthiness Detection Models

TL;DR

Abstract

MultiCW: A Large-Scale Balanced Benchmark Dataset for Training Robust Check-Worthiness Detection Models

Authors

TL;DR

Abstract

Table of Contents

Figures (8)