Do Reasoning Vision-Language Models Inversely Scale in Test-Time Compute? A Distractor-centric Empirical Analysis

Jiyun Bae; Hyunjong Ok; Sangwoo Mo; Jaeho Lee

Do Reasoning Vision-Language Models Inversely Scale in Test-Time Compute? A Distractor-centric Empirical Analysis

Jiyun Bae, Hyunjong Ok, Sangwoo Mo, Jaeho Lee

TL;DR

This work investigates whether test-time compute scaling observed as inverse scaling in language models extends to vision-language models when visual distractors are present. By introducing Idis, a distractor-centered VQA dataset with semantic, numeric, and spatially varied distractors, the study shows that visual distractors degrade accuracy without increasing reasoning length, unlike textual distractors in LMs. An attribute-trace analysis reveals that the model's reasoning becomes biased toward distractor-related attributes, and the distractor area and semantics strongly influence performance. The findings generalize to visual bias benchmarks like Waterbirds, where reasoning VLMs amplify bias, but a simple prompt-based debiasing strategy that emphasizes foreground attributes improves robustness without retraining. Overall, the work provides a distractor-centric framework for interpreting and mitigating inference-time biases in multimodal reasoning systems.

Abstract

How does irrelevant information (i.e., distractors) affect test-time scaling in vision-language models (VLMs)? Prior studies on language models have reported an inverse scaling effect, where textual distractors lead to longer but less effective reasoning. To investigate whether similar phenomena occur in multimodal settings, we introduce Idis (Images with distractors), a visual question-answering dataset that systematically varies distractors along semantic, numerical, and spatial dimensions. Our analyses reveal that visual distractors differ fundamentally from textual ones: although inverse scaling persists, adding visual distractors reduces accuracy without increasing reasoning length. We further show that tracking attribute counts within reasoning traces provides key insights into how distractors, reasoning length, and accuracy interact. Finally, we demonstrate that these trends extend to established visual bias benchmarks such as Waterbirds, and we propose a simple prompting strategy to mitigate bias-driven predictions in reasoning models.

Do Reasoning Vision-Language Models Inversely Scale in Test-Time Compute? A Distractor-centric Empirical Analysis

TL;DR

Abstract

Do Reasoning Vision-Language Models Inversely Scale in Test-Time Compute? A Distractor-centric Empirical Analysis

TL;DR

Abstract

Paper Structure

Table of Contents

Figures (18)