An Open Source Data Contamination Report for Large Language Models

Yucheng Li; Frank Guerin; Chenghua Lin

An Open Source Data Contamination Report for Large Language Models

Yucheng Li, Frank Guerin, Chenghua Lin

TL;DR

Data contamination challenges the credibility of LLM evaluation by enabling memorization rather than genuine generalization. The paper presents an open-source contamination analysis pipeline applied to 15+ models across six multi-choice benchmarks, leveraging a search-then-Crawl approach and METEOR-based matching to distinguish clean versus contaminated test samples. Key findings reveal contamination rates spanning roughly 1% to 46%, with rapid growth over time and variable impacts on model performance; larger and multilingual models often exploit contamination more than smaller, English-only models. The work enhances transparency, enables community auditing, and offers practical mitigation insights that complement prior Llama contamination reports.

Abstract

Data contamination in model evaluation has become increasingly prevalent with the growing popularity of large language models. It allows models to "cheat" via memorisation instead of displaying true capabilities. Therefore, contamination analysis has become an crucial part of reliable model evaluation to validate results. However, existing contamination analysis is usually conducted internally by large language model developers and often lacks transparency and completeness. This paper presents an extensive data contamination report for over 15 popular large language models across six popular multiple-choice QA benchmarks. We also introduce an open-source pipeline that enables the community to perform contamination analysis on customised data and models. Our experiments reveal varying contamination levels ranging from 1\% to 45\% across benchmarks, with the contamination degree increasing rapidly over time. Performance analysis of large language models indicates that data contamination does not necessarily lead to increased model metrics: while significant accuracy boosts of up to 14\% and 7\% are observed on contaminated C-Eval and Hellaswag benchmarks, only a minimal increase is noted on contaminated MMLU. We also find larger models seem able to gain more advantages than smaller models on contaminated test sets.

An Open Source Data Contamination Report for Large Language Models

TL;DR

Abstract

Paper Structure (13 sections, 6 figures, 4 tables)

This paper contains 13 sections, 6 figures, 4 tables.

Introduction
Data Contamination
Benchmarks for Language Models
Our Approach
Contamination Statistics for Multi-Choice Benchmarks
Impact of Contamination on Model Performance
Discussion
Existing Methods to Mitigate Data Contamination
Comparison to Llama's Original Contamination Report
Conclusion
Limitation
More Information about Contamination in Multi-Choice QA Benchmarks
More Results on Contaminated Subsets

Figures (6)

Figure 1: The categorisation of contaminated test samples.
Figure 2: Increase in Data Contamination from 2017-2020 to 2020-2023. CSQA stands for CommonsenseQA.
Figure 3: Domains analysis for data contamination in Hellaswag.
Figure 4: Accuracy of Llama-2 70B for test examples with different METEOR score.
Figure 5: Domains analysis for data contamination in ARC.
...and 1 more figures

An Open Source Data Contamination Report for Large Language Models

TL;DR

Abstract

An Open Source Data Contamination Report for Large Language Models

Authors

TL;DR

Abstract

Table of Contents

Figures (6)