TQCodec: Towards neural audio codec for high-fidelity music streaming

Lixing He; Zhouxuan Chen; Mingshuai Liu; Xinran Sun; Wucheng Wang; Minfu Li; Lingcheng Kong; Weifeng Zhao; Wenjiang Zhou

TQCodec: Towards neural audio codec for high-fidelity music streaming

Lixing He, Zhouxuan Chen, Mingshuai Liu, Xinran Sun, Wucheng Wang, Minfu Li, Lingcheng Kong, Weifeng Zhao, Wenjiang Zhou

TL;DR

Evaluations on diverse music datasets demonstrate that TQCodec achieves superior audio quality at target bitrates, making it well-suited for high-quality audio applications.

Abstract

We propose TQCodec, a neural audio codec designed for high-bitrate, high-fidelity music streaming. Unlike existing neural codecs that primarily target ultra-low bitrates (<= 16kbps), TQCodec operates at 44.1 kHz and supports bitrates from 32 kbps to 128 kbps, aligning with the standard quality of modern music streaming platforms. The model adopts an encoder-decoder architecture based on SEANet for efficient on-device computation and introduces several enhancements: an imbalanced network design for improved quality with low overhead, SimVQ for mid-frequency detail preservation, and a phase-aware waveform loss. Additionally, we introduce a perception-driven band-wise bit allocation strategy to prioritize perceptually critical lower frequencies. Evaluations on diverse music datasets demonstrate that TQCodec achieves superior audio quality at target bitrates, making it well-suited for high-quality audio applications.

TQCodec: Towards neural audio codec for high-fidelity music streaming

TL;DR

Evaluations on diverse music datasets demonstrate that TQCodec achieves superior audio quality at target bitrates, making it well-suited for high-quality audio applications.

Abstract

Paper Structure (12 sections, 2 figures, 5 tables)

This paper contains 12 sections, 2 figures, 5 tables.

Introduction
Related Work
Method
Improved Neural Audio Codec
Encoder and decoder
Quantizer
Loss function
Perception-driven Subband Modeling
Experiment
Training recipe
Evaluation
Conclusion

Figures (2)

Figure 1: Illustration of our subband modeling.
Figure 2: Spectrogram visualization, where the RVQ fails to reconstruct the mid-frequency clearly (above 4000Hz).

TQCodec: Towards neural audio codec for high-fidelity music streaming

TL;DR

Abstract

TQCodec: Towards neural audio codec for high-fidelity music streaming

Authors

TL;DR

Abstract

Table of Contents

Figures (2)