Harmonizing Dense and Sparse Signals in Multi-turn RL: Dual-Horizon Credit Assignment for Industrial Sales Agents

Haojin Yang; Ai Jian; Xinyue Huang; Yiwei Wang; Weipeng Zhang; Ke Zeng; Xunliang Cai; Jingqing Ruan

Harmonizing Dense and Sparse Signals in Multi-turn RL: Dual-Horizon Credit Assignment for Industrial Sales Agents

Haojin Yang, Ai Jian, Xinyue Huang, Yiwei Wang, Weipeng Zhang, Ke Zeng, Xunliang Cai, Jingqing Ruan

TL;DR

Dual-Horizon Credit Assignment (DuCA) is proposed, a framework that disentangles optimization across time scales and separately normalizes advantages from turn-level and session-level rewards before fusion, ensuring balanced gradient contributions from both immediate and long-term objectives to the policy update.

Abstract

Optimizing large language models for industrial sales requires balancing long-term commercial objectives (e.g., conversion rate) with immediate linguistic constraints such as fluency and compliance. Conventional reinforcement learning often merges these heterogeneous goals into a single reward, causing high-magnitude session-level rewards to overwhelm subtler turn-level signals, which leads to unstable training or reward hacking. To address this issue, we propose Dual-Horizon Credit Assignment (DuCA), a framework that disentangles optimization across time scales. Its core, Horizon-Independent Advantage Normalization (HIAN), separately normalizes advantages from turn-level and session-level rewards before fusion, ensuring balanced gradient contributions from both immediate and long-term objectives to the policy update. Extensive experiments with a high-fidelity user simulator show DuCA outperforms the state-of-the-art GRPO baseline, achieving a 6.82% relative improvement in conversion rate, reducing inter-sentence repetition by 82.28%, and lowering identity detection rate by 27.35%, indicating a substantial improvement for an industrial sales scenario that effectively balances the dual demands of strategic performance and naturalistic language generation.

Harmonizing Dense and Sparse Signals in Multi-turn RL: Dual-Horizon Credit Assignment for Industrial Sales Agents

TL;DR

Abstract

Paper Structure (42 sections, 9 equations, 4 figures, 5 tables)

This paper contains 42 sections, 9 equations, 4 figures, 5 tables.

Introduction
Related Work
Multi-turn RL for dialogue.
Credit assignment in Multi-turn RL.
Method
Problem Formulation
Environment: High-fidelity User Simulator with Personas
Multi-Granularity Reward Design
Turn-level Rewards ($r_{\text{turn}}$)
Session-level Rewards ($R_{\text{session}}$)
Dual-Horizon Credit Assignment (DuCA)
Step 1: Independent Advantage Estimation.
Step 2: Horizon-Independent Advantage Normalization (HIAN).
Theoretical Justification.
Step 3: Strategic Fusion and Optimization.
...and 27 more sections

Figures (4)

Figure 1: Comparison of dialogue strategies between SFT, Standard RL, and our proposed DuCA method.
Figure 2: Overview of the DuCA framework. The system generates interaction trajectories via a user simulator conditioned on personas and history. It independently calculates and normalizes: (1) Turn-level advantages from dense heuristic constraints, and (2) Session-level advantages from sparse business outcomes. These decoupled signals are fused to provide a balanced final advantage for robust policy updates.
Figure 3: Training dynamics of DuCA compared with baselines over 70 steps.
Figure 4: Training dynamics of DRF compared with ablation variants. (a) Conversion Rate (CVR) evolution. (b) Compliance Score evolution.

Harmonizing Dense and Sparse Signals in Multi-turn RL: Dual-Horizon Credit Assignment for Industrial Sales Agents

TL;DR

Abstract

Harmonizing Dense and Sparse Signals in Multi-turn RL: Dual-Horizon Credit Assignment for Industrial Sales Agents

Authors

TL;DR

Abstract

Table of Contents

Figures (4)