Uncovering Intrinsic Capabilities: A Paradigm for Data Curation in Vision-Language Models

Junjie Li; Ziao Wang; Jianghong Ma; Xiaofeng Zhang

Uncovering Intrinsic Capabilities: A Paradigm for Data Curation in Vision-Language Models

Junjie Li, Ziao Wang, Jianghong Ma, Xiaofeng Zhang

TL;DR

This work tackles data efficiency in instruction tuning for large vision–language models by shifting data curation from task-driven heuristics to intrinsic capability analysis. It introduces CADC, which first discovers intrinsic capabilities $\mathcal{C}=\{c_1,\dots, c_K\}$ from gradient-based learning trajectories, then attributes training data to these capabilities via trajectory influence, and finally curates a capability-aware curriculum with balanced budgets and staged sequencing. The authors demonstrate that with as little as 5% of the original data CADC can match or surpass full-data performance on diverse multimodal benchmarks, with robust transfer across model scales and datasets. They show that the three discovered capabilities—$c_1$, $c_2$, and $c_3$—balance structural grounding, perceptual recognition, and symbolic reasoning, offering a principled framework for instruction data curation.

Abstract

Large vision-language models (VLMs) achieve strong benchmark performance, but controlling their behavior through instruction tuning remains difficult. Reducing the budget of instruction tuning dataset often causes regressions, as heuristic strategies treat models as black boxes and overlook the latent capabilities that govern learning. We introduce Capability-Attributed Data Curation (CADC), a framework that shifts curation from task-specific heuristics to intrinsic capability analysis. CADC discovers intrinsic capabilities in an unsupervised manner from gradient-based learning trajectories, attributes training data to these capabilities via influence estimation, and curates capability-aware curricula through balanced selection and staged sequencing. This transforms black-box instruction tuning into a controllable, capability-driven process. With as little as 5% of the original data, CADC surpasses full-data training on multimodal benchmarks. These results validate intrinsic capabilities as the fundamental building blocks of model learning and establish CADC as a principle paradigm for instruction data curation.

Uncovering Intrinsic Capabilities: A Paradigm for Data Curation in Vision-Language Models

TL;DR

Abstract

Uncovering Intrinsic Capabilities: A Paradigm for Data Curation in Vision-Language Models

TL;DR

Abstract

Paper Structure

Table of Contents

Figures (6)

Theorems & Definitions (1)