Prune Redundancy, Preserve Essence: Vision Token Compression in VLMs via Synergistic Importance-Diversity

Zhengyao Fang; Pengyuan Lyu; Chengquan Zhang; Guangming Lu; Jun Yu; Wenjie Pei

Prune Redundancy, Preserve Essence: Vision Token Compression in VLMs via Synergistic Importance-Diversity

Zhengyao Fang, Pengyuan Lyu, Chengquan Zhang, Guangming Lu, Jun Yu, Wenjie Pei

TL;DR

PruneSID is a training-free Synergistic Importance-Diversity approach featuring a two-stage pipeline featuring a two-stage pipeline for clustering tokens into semantically coherent groups, ensuring comprehensive concept coverage, and an information-aware dynamic compression ratio mechanism that optimizes token compression rates based on image complexity, enabling more effective average information preservation across diverse scenes.

Abstract

Vision-language models (VLMs) face significant computational inefficiencies caused by excessive generation of visual tokens. While prior work shows that a large fraction of visual tokens are redundant, existing compression methods struggle to balance importance preservation and information diversity. To address this, we propose PruneSID, a training-free Synergistic Importance-Diversity approach featuring a two-stage pipeline: (1) Principal Semantic Components Analysis (PSCA) for clustering tokens into semantically coherent groups, ensuring comprehensive concept coverage, and (2) Intra-group Non-Maximum Suppression (NMS) for pruning redundant tokens while preserving key representative tokens within each group. Additionally, PruneSID incorporates an information-aware dynamic compression ratio mechanism that optimizes token compression rates based on image complexity, enabling more effective average information preservation across diverse scenes. Extensive experiments demonstrate state-of-the-art performance, achieving 96.3% accuracy on LLaVA-1.5 with only 11.1% token retention, and 92.8% accuracy at extreme compression rates (5.6%) on LLaVA-NeXT, outperforming prior methods by 2.5% with 7.8 $\times$ faster prefilling speed compared to the original model. Our framework generalizes across diverse VLMs and both image and video modalities, showcasing strong cross-modal versatility. Code is available at https://github.com/ZhengyaoFang/PruneSID.

Prune Redundancy, Preserve Essence: Vision Token Compression in VLMs via Synergistic Importance-Diversity

TL;DR

Abstract

faster prefilling speed compared to the original model. Our framework generalizes across diverse VLMs and both image and video modalities, showcasing strong cross-modal versatility. Code is available at https://github.com/ZhengyaoFang/PruneSID.

Paper Structure (36 sections, 15 equations, 9 figures, 16 tables, 2 algorithms)

This paper contains 36 sections, 15 equations, 9 figures, 16 tables, 2 algorithms.

Introduction
Visual Token Reduction in VLMs
Our Method
Overview
Semantic-Aware Token Grouping via PSCA
Intra-Group Redundancy Removal via NMS
Information-Aware Dynamic Compression Ratio Across Images
Theoretical Overview of PSCA--NMS Pruning
Experiments
Main results on Image Understanding Tasks
Main results on Video Understanding Tasks
Ablation Study
Efficiency Analysis.
Visualization about Limitation
Conclusion
...and 21 more sections

Figures (9)

Figure 1: Comparison of visual token reduction paradigms in VLMs. (a) Original input image. (b) Attention-guided methods preserve high-attention tokens but discard contextual background. (c) Duplication-aware methods remove redundant tokens via similarity pruning, yet may discard semantically important regions with high attention. (d) Our proposed semantically group-guided method balances semantic importance and information diversity.
Figure 2: Performance comparison of token reduction methods across multiple vision-language benchmarks on LLaVA-1.5.
Figure 3: Overview of our two-stage compression framework. PSCA first clusters visual tokens into semantically coherent groups via low-rank PCA decomposition. Then, intra-group NMS removes redundant tokens within each group using adaptive similarity thresholds $\tau$, retaining the most informative representatives.
Figure 4: Ablation study on ViT layer features for PSCA Grouping.
Figure 5: Histogram of Information Score distributions for the MMMU and GQA benchmarks. A higher Information Score indicates greater visual information content.
...and 4 more figures

Prune Redundancy, Preserve Essence: Vision Token Compression in VLMs via Synergistic Importance-Diversity

TL;DR

Abstract

Prune Redundancy, Preserve Essence: Vision Token Compression in VLMs via Synergistic Importance-Diversity

Authors

TL;DR

Abstract

Table of Contents

Figures (9)