Federated Dialogue-Semantic Diffusion for Emotion Recognition under Incomplete Modalities

Xihang Qiu; Jiarong Cheng; Yuhao Fang; Wanpeng Zhang; Yao Lu; Ye Zhang; Chun Li

Federated Dialogue-Semantic Diffusion for Emotion Recognition under Incomplete Modalities

Xihang Qiu, Jiarong Cheng, Yuhao Fang, Wanpeng Zhang, Yao Lu, Ye Zhang, Chun Li

TL;DR

FedDISC tackles robust Multimodal Emotion Recognition in Conversations under incomplete modalities by federating modality-specific diffusion models trained locally and aggregating them to recover missing modalities across clients. The DISC-Diffusion framework leverages a Dialogue Graph Network (DGN) and a Semantic Conditioning Network (SCN) to provide context and semantic guidance for diffusion-based recovery, while an Alternating Frozen Strategy coordinates recovery and classifier optimization in a privacy-preserving FL setting. Empirical results on IEMOCAP, CMU-MOSI, and CMU-MOSEI demonstrate strong performance under both fixed and random missing modalities, often outperforming state-of-the-art recovery methods and maintaining robustness as missing rates rise. This approach enables cross-client collaboration with privacy, reduces communication costs, and offers practical scalability for real-world MERC deployments with incomplete data.

Abstract

Multimodal Emotion Recognition in Conversations (MERC) enhances emotional understanding through the fusion of multimodal signals. However, unpredictable modality absence in real-world scenarios significantly degrades the performance of existing methods. Conventional missing-modality recovery approaches, which depend on training with complete multimodal data, often suffer from semantic distortion under extreme data distributions, such as fixed-modality absence. To address this, we propose the Federated Dialogue-guided and Semantic-Consistent Diffusion (FedDISC) framework, pioneering the integration of federated learning into missing-modality recovery. By federated aggregation of modality-specific diffusion models trained on clients and broadcasting them to clients missing corresponding modalities, FedDISC overcomes single-client reliance on modality completeness. Additionally, the DISC-Diffusion module ensures consistency in context, speaker identity, and semantics between recovered and available modalities, using a Dialogue Graph Network to capture conversational dependencies and a Semantic Conditioning Network to enforce semantic alignment. We further introduce a novel Alternating Frozen Aggregation strategy, which cyclically freezes recovery and classifier modules to facilitate collaborative optimization. Extensive experiments on the IEMOCAP, CMUMOSI, and CMUMOSEI datasets demonstrate that FedDISC achieves superior emotion classification performance across diverse missing modality patterns, outperforming existing approaches.

Federated Dialogue-Semantic Diffusion for Emotion Recognition under Incomplete Modalities

TL;DR

Abstract

Federated Dialogue-Semantic Diffusion for Emotion Recognition under Incomplete Modalities

TL;DR

Abstract

Paper Structure

Table of Contents

Key Result

Figures (9)

Theorems & Definitions (3)