Aligning Paralinguistic Understanding and Generation in Speech LLMs via Multi-Task Reinforcement Learning

Jingxiang Chen; Minseok Kim; Seong-Gyun Leem; Yin Huang; Rashi Rungta; Zhicheng Ouyang; Haibin Wu; Surya Teja Appini; Ankur Bansal; Yang Bai; Yue Liu; Florian Metze; Ahmed A Aly; Anuj Kumar; Ariya Rastrow; Zhaojiang Lin

Aligning Paralinguistic Understanding and Generation in Speech LLMs via Multi-Task Reinforcement Learning

Jingxiang Chen, Minseok Kim, Seong-Gyun Leem, Yin Huang, Rashi Rungta, Zhicheng Ouyang, Haibin Wu, Surya Teja Appini, Ankur Bansal, Yang Bai, Yue Liu, Florian Metze, Ahmed A Aly, Anuj Kumar, Ariya Rastrow, Zhaojiang Lin

Abstract

Speech large language models (LLMs) observe paralinguistic cues such as prosody, emotion, and non-verbal sounds--crucial for intent understanding. However, leveraging these cues faces challenges: limited training data, annotation difficulty, and models exploiting lexical shortcuts over paralinguistic signals. We propose multi-task reinforcement learning (RL) with chain-of-thought prompting that elicits explicit affective reasoning. To address data scarcity, we introduce a paralinguistics-aware speech LLM (PALLM) that jointly optimizes sentiment classification from audio and paralinguistics-aware response generation via a two-stage pipeline. Experiments demonstrate that our approach improves paralinguistics understanding over both supervised baselines and strong proprietary models (Gemini-2.5-Pro, GPT-4o-audio) by 8-12% on Expresso, IEMOCAP, and RAVDESS. The results show that modeling paralinguistic reasoning with multi-task RL is crucial for building emotionally intelligent speech LLMs.

Aligning Paralinguistic Understanding and Generation in Speech LLMs via Multi-Task Reinforcement Learning

Abstract

Paper Structure (32 sections, 6 equations, 7 figures, 4 tables)

This paper contains 32 sections, 6 equations, 7 figures, 4 tables.

Introduction
Related Work
Speech Emotion Recognition and Paralinguistic Modeling
Paralinguistic-Aware Dialogue Systems
Methodology
Task Formulation
Sentiment Classification
Paralinguistics-Aware Response Generation
Two-Stage Training Pipeline
Stage 1: Supervised Fine-Tuning
(SFT) Sentiment Classification
(SFT) Paralinguistics-Aware Response Generation
Stage 2: Reinforcement Learning with Chain-of-Thought
(RL) Sentiment Classification with CoT
(RL) Paralinguistics-Aware Response Generation with Reasoning
...and 17 more sections

Figures (7)

Figure 1: Paralinguistics-Aware LLM stage 2 overview. A multi-task RL jointly performs sentiment classification and paralinguistics-aware response generation with chain-of-thought reasoning.
Figure 2: Response appropriateness instruction prompt.
Figure 3: Response appropriateness instruction prompt. (cont'd)
Figure 4: Instruction prompt for sentiment classification in SFT.
Figure 5: Instruction prompt for sentiment classification in RL.
...and 2 more figures

Aligning Paralinguistic Understanding and Generation in Speech LLMs via Multi-Task Reinforcement Learning

Abstract

Aligning Paralinguistic Understanding and Generation in Speech LLMs via Multi-Task Reinforcement Learning

Authors

Abstract

Table of Contents

Figures (7)