Exploring Multi-Modal Control in Music-Driven Dance Generation

Ronghui Li; Yuqin Dai; Yachao Zhang; Jun Li; Jian Yang; Jie Guo; Xiu Li

Exploring Multi-Modal Control in Music-Driven Dance Generation

Ronghui Li, Yuqin Dai, Yachao Zhang, Jun Li, Jian Yang, Jie Guo, Xiu Li

TL;DR

A unified framework capable of generating high-quality dance movements and supporting multi-modal control, including genre control, semantic control, and spatial control is proposed, thereby avoiding the degradation in dance quality when adding additional control information.

Abstract

Existing music-driven 3D dance generation methods mainly concentrate on high-quality dance generation, but lack sufficient control during the generation process. To address these issues, we propose a unified framework capable of generating high-quality dance movements and supporting multi-modal control, including genre control, semantic control, and spatial control. First, we decouple the dance generation network from the dance control network, thereby avoiding the degradation in dance quality when adding additional control information. Second, we design specific control strategies for different control information and integrate them into a unified framework. Experimental results show that the proposed dance generation framework outperforms state-of-the-art methods in terms of motion quality and controllability.

Exploring Multi-Modal Control in Music-Driven Dance Generation

TL;DR

Abstract

Paper Structure (10 sections, 4 equations, 7 figures, 2 tables)

This paper contains 10 sections, 4 equations, 7 figures, 2 tables.

Introduction
Method
Pre-training: Motion VQ-VAE
Training basic Cross-modal GPT
Multi modal control
Inference: Unified Framework
Experiment
Setups
Comparative Results
Conclusion

Figures (7)

Figure 1: Generated dance from various control input and music.
Figure 2: Overview of our method. GEN means Genre Embedding Network.
Figure 3: Text control module.
Figure 4: Generated dance for the same music in different genres, showcasing the effective control of the given genre on the generated sequence and the diversity achieved.
Figure 5: Generated dances for the same music using different text controls.
...and 2 more figures

Exploring Multi-Modal Control in Music-Driven Dance Generation

TL;DR

Abstract

Exploring Multi-Modal Control in Music-Driven Dance Generation

Authors

TL;DR

Abstract

Table of Contents

Figures (7)