Désentrelacement Fréquentiel Doux pour les Codecs Audio Neuronaux
Benoît Giniès, Xiaoyu Bie, Olivier Fercoq, Gaël Richard
TL;DR
Le papier présente un codec audio neuronal désentrelacé fondé sur une décomposition spectrale dans le domaine temporel, implémenté avec deux branches à $16~\mathrm{kHz}$ et $32~\mathrm{kHz}$. La reconstruction est donnée par $\hat{S}_{16kHz}=\hat{d}_{16kHz}$ et $\hat{S}_{32kHz}=U(\hat{d}_{16kHz})+\hat{d}_{32kHz}$, ce qui permet un désentrelacement doux entre bandes et améliore l’interprétabilité des tokens discrets. Les expériences sur MUSDB18 et Jamendo montrent des gains par rapport à un baseline DAC en termes de fidélité de reconstruction et de qualité perçue, avec une distribution d’informations entre bandes qui confirme le rôle de chaque branche (hautes fréquences dans $32~\mathrm{kHz}$, basses fréquences dans $16~\mathrm{kHz}$). L’analyse des spectrogrammes et des SDR par bande confirme l’absence d artefacts près de la frontière des bandes et démontre le potentiel d’extension de bande via ce cadre multi-bande, tout en soulignant des marges de significativité statistique dans les évaluations perceptives. Le travail propose ainsi une voie concrète vers des représentations plus interprétables dans les codecs audio neuronaux et ouvre des pistes pour des architectures à plus de branches et des applications de transfert de bande.
Abstract
While neural-based models have led to significant advancements in audio feature extraction, the interpretability of the learned representations remains a critical challenge. To address this, disentanglement techniques have been integrated into discrete neural audio codecs to impose structure on the extracted tokens. However, these approaches often exhibit strong dependencies on specific datasets or task formulations. In this work, we propose a disentangled neural audio codec that leverages spectral decomposition of time-domain signals to enhance representation interpretability. Experimental evaluations demonstrate that our method surpasses a state-of-the-art baseline in both reconstruction fidelity and perceptual quality.
