VorTEX: Various overlap ratio for Target speech EXtraction

Ro-hoon Oh; Jihwan Seol; Bugeun Kim

VorTEX: Various overlap ratio for Target speech EXtraction

Ro-hoon Oh, Jihwan Seol, Bugeun Kim

Abstract

Target speech extraction (TSE) aims to recover a target speaker's voice from a mixture. While recent text-prompted approaches have shown promise, most approaches assume fully overlapped mixtures, limiting insight into behavior across realistic overlap ratios. We introduce VorTEX (Various overlap ratio for Target speech EXtraction), a text-prompted TSE architecture with a Decoupled Adaptive Multi-branch (DAM) Fusion block that separates primary extraction from auxiliary regularization pathways. To enable controlled analysis, we construct PORTE, a two-speaker dataset spanning overlap ratios from 0% to 100%. We further propose Suppression Ratio on Energy (SuRE), a diagnostic metric that detects suppression behavior not captured by conventional measures. Experiments show that existing models exhibit suppression or residual interference under overlap, whereas VorTEX achieves the highest separation fidelity across 20-100% overlap (e.g., 5.50 dB at 20% and 2.04 dB at 100%) while maintaining zero SuRE, indicating robust extraction without suppression-driven artifacts.

VorTEX: Various overlap ratio for Target speech EXtraction

Abstract

Paper Structure (19 sections, 3 equations, 3 figures, 3 tables)

This paper contains 19 sections, 3 equations, 3 figures, 3 tables.

Introduction
Related Works
PORTE Dataset
VorTEX Model
Encoder
Decoder
Loss functions
Experimental Setup
Evaluation Metric
Comparison Experiment
Ablation Experiment
Training Configuration
Result and Discussion
Perceptual Quality versus Separation Fidelity
Result of Model Comparison
...and 4 more sections

Figures (3)

Figure 1: Architecture of VorTEX
Figure 2: DAM Fusion and its fusion blocks
Figure 3: Example mel-spectrograms

VorTEX: Various overlap ratio for Target speech EXtraction

Abstract

VorTEX: Various overlap ratio for Target speech EXtraction

Authors

Abstract

Table of Contents

Figures (3)