Table of Contents
Fetching ...

Désentrelacement Fréquentiel Doux pour les Codecs Audio Neuronaux

Benoît Giniès, Xiaoyu Bie, Olivier Fercoq, Gaël Richard

TL;DR

Le papier présente un codec audio neuronal désentrelacé fondé sur une décomposition spectrale dans le domaine temporel, implémenté avec deux branches à $16~\mathrm{kHz}$ et $32~\mathrm{kHz}$. La reconstruction est donnée par $\hat{S}_{16kHz}=\hat{d}_{16kHz}$ et $\hat{S}_{32kHz}=U(\hat{d}_{16kHz})+\hat{d}_{32kHz}$, ce qui permet un désentrelacement doux entre bandes et améliore l’interprétabilité des tokens discrets. Les expériences sur MUSDB18 et Jamendo montrent des gains par rapport à un baseline DAC en termes de fidélité de reconstruction et de qualité perçue, avec une distribution d’informations entre bandes qui confirme le rôle de chaque branche (hautes fréquences dans $32~\mathrm{kHz}$, basses fréquences dans $16~\mathrm{kHz}$). L’analyse des spectrogrammes et des SDR par bande confirme l’absence d artefacts près de la frontière des bandes et démontre le potentiel d’extension de bande via ce cadre multi-bande, tout en soulignant des marges de significativité statistique dans les évaluations perceptives. Le travail propose ainsi une voie concrète vers des représentations plus interprétables dans les codecs audio neuronaux et ouvre des pistes pour des architectures à plus de branches et des applications de transfert de bande.

Abstract

While neural-based models have led to significant advancements in audio feature extraction, the interpretability of the learned representations remains a critical challenge. To address this, disentanglement techniques have been integrated into discrete neural audio codecs to impose structure on the extracted tokens. However, these approaches often exhibit strong dependencies on specific datasets or task formulations. In this work, we propose a disentangled neural audio codec that leverages spectral decomposition of time-domain signals to enhance representation interpretability. Experimental evaluations demonstrate that our method surpasses a state-of-the-art baseline in both reconstruction fidelity and perceptual quality.

Désentrelacement Fréquentiel Doux pour les Codecs Audio Neuronaux

TL;DR

Le papier présente un codec audio neuronal désentrelacé fondé sur une décomposition spectrale dans le domaine temporel, implémenté avec deux branches à et . La reconstruction est donnée par et , ce qui permet un désentrelacement doux entre bandes et améliore l’interprétabilité des tokens discrets. Les expériences sur MUSDB18 et Jamendo montrent des gains par rapport à un baseline DAC en termes de fidélité de reconstruction et de qualité perçue, avec une distribution d’informations entre bandes qui confirme le rôle de chaque branche (hautes fréquences dans , basses fréquences dans ). L’analyse des spectrogrammes et des SDR par bande confirme l’absence d artefacts près de la frontière des bandes et démontre le potentiel d’extension de bande via ce cadre multi-bande, tout en soulignant des marges de significativité statistique dans les évaluations perceptives. Le travail propose ainsi une voie concrète vers des représentations plus interprétables dans les codecs audio neuronaux et ouvre des pistes pour des architectures à plus de branches et des applications de transfert de bande.

Abstract

While neural-based models have led to significant advancements in audio feature extraction, the interpretability of the learned representations remains a critical challenge. To address this, disentanglement techniques have been integrated into discrete neural audio codecs to impose structure on the extracted tokens. However, these approaches often exhibit strong dependencies on specific datasets or task formulations. In this work, we propose a disentangled neural audio codec that leverages spectral decomposition of time-domain signals to enhance representation interpretability. Experimental evaluations demonstrate that our method surpasses a state-of-the-art baseline in both reconstruction fidelity and perceptual quality.

Paper Structure

This paper contains 9 sections, 3 equations, 2 figures, 3 tables.

Figures (2)

  • Figure 1: Le codec désentrelacé proposé. La branche $16~kHz$ reconstruit le signal $[0-8~kHz]$. La branche $32~kHz$ traite le résidu de $S_{32kHz}$ et $U(\hat{d}_{16kHz})$ pour produire le signal $[0-16~kHz]$ en additionnant les sorties de chaque branche.
  • Figure 2: Spectrogrammes de $S_{32kHz}$, $U(\hat{d}_{16kHz})$ et $\hat{d}_{32kHz}$. $U(\hat{d}_{16kHz})$ n'encode que l'information dans la bande $[0-8~kHz]$. $\hat{d}_{32kHz}$ a la plus grande partie de son énergie dans la bande $[8-16~kHz]$, même s'il porte également des informations résiduelles dans la bande inférieure.