Doctor or Patient? Synergizing Diarization and ASR for Code-Switched Hinglish Medical Conditions Extraction

Séverin Baroudi; Yanis Labrak; Shashi Kumar; Joonas Kalda; Sergio Burdisso; Pawel Cyrta; Juan Ignacio Alvarez-Trejos; Petr Motlicek; Hervé Bredin; Ricard Marxer

Doctor or Patient? Synergizing Diarization and ASR for Code-Switched Hinglish Medical Conditions Extraction

Séverin Baroudi, Yanis Labrak, Shashi Kumar, Joonas Kalda, Sergio Burdisso, Pawel Cyrta, Juan Ignacio Alvarez-Trejos, Petr Motlicek, Hervé Bredin, Ricard Marxer

TL;DR

A robust system evaluated on the DISPLACE-M dataset of real-world Hinglish medical conversations, and proposes an End-to-End Neural Diarization with Vector Clustering approach (EEND-VC) to accurately resolve dense and speaker overlaps in Doctor-Patient Conversations.

Abstract

Extracting patient medical conditions from code-switched clinical spoken dialogues is challenging due to rapid turn-taking and highly overlapped speech. We present a robust system evaluated on the DISPLACE-M dataset of real-world Hinglish medical conversations. We propose an End-to-End Neural Diarization with Vector Clustering approach (EEND-VC) to accurately resolve dense and speaker overlaps in Doctor-Patient Conversations (DoPaCo). For transcription, we adapt a Qwen3 ASR model via domain-specific fine-tuning, Devanagari script normalization, and dialogue-level LLM error correction, achieving an 18.59% tcpWER. We benchmark open and proprietary LLMs on medical condition extraction, comparing our text-based cascade system against a multimodal End-to-End (E2E) audio framework. While proprietary E2E models set the performance ceiling, our open cascaded architecture is highly competitive, as it achieved first place out of 25 participants in the DISPLACE-M challenge. All implementations are publicly released.

Doctor or Patient? Synergizing Diarization and ASR for Code-Switched Hinglish Medical Conditions Extraction

TL;DR

Abstract

Paper Structure (18 sections, 1 figure, 6 tables)

This paper contains 18 sections, 1 figure, 6 tables.

Introduction
Methodology
Dataset Overview
Speaker Diarization
Pre-training and Fine-tuning
Speaker-Attributed Automatic Speech Recognition
Overall Architecture
Contextualized Generative Error Correction
Pre-training and Fine-tuning
Medical Conditions Extraction
Results on evaluation sets
Speaker Diarization
Speaker-Attributed Automatic Speech Recognition
Medical Conditions Extraction
Synergy Analysis of System Modules
...and 3 more sections

Figures (1)

Figure 1: Visualization of the proposed cascade pipeline. Conversations involve code-switching Hinglish turns between patient and doctor. English words (displayed in blue color) are spelled in Devanagari script.

Doctor or Patient? Synergizing Diarization and ASR for Code-Switched Hinglish Medical Conditions Extraction

TL;DR

Abstract

Doctor or Patient? Synergizing Diarization and ASR for Code-Switched Hinglish Medical Conditions Extraction

Authors

TL;DR

Abstract

Table of Contents

Figures (1)