Aligning Language Models with Clinical Expertise: DPO for Heart Failure Nursing Documentation in Critical Care

Junyi Fan; Li Sun; Negin Ashrafi; Kamiar Alaei; Maryam Pishgar

Aligning Language Models with Clinical Expertise: DPO for Heart Failure Nursing Documentation in Critical Care

Junyi Fan, Li Sun, Negin Ashrafi, Kamiar Alaei, Maryam Pishgar

TL;DR

This work tackles the problem of inconsistent and informal ICU nursing documentation by applying Direct Preference Optimization (DPO) to a lightweight, locally deployable model (Mistral-7B-Instruct) using heart failure notes from MIMIC-III. By training on 21,210 preference-ranked examples that compare expert GPT outputs, Mistral generations, and original notes, the study demonstrates significant improvements in automated note quality, including BLEU, BERTScore, and expert-rated metrics, while preserving data privacy through on-premise deployment. Although Mistral-DPO narrows the gap to GPT+expert references, human-authored notes remain the gold standard, highlighting the need for ongoing refinement, multi-center validation, and integration into real-world EHR workflows. The findings support practical, privacy-preserving AI-assisted documentation with potential to reduce administrative burden and enhance ICU patient safety, provided robust clinical oversight and broader data validation are implemented.

Abstract

Nursing documentation in intensive care units (ICUs) provides essential clinical intelligence but often suffers from inconsistent terminology, informal styles, and lack of standardization, challenges that are particularly critical in heart failure care. This study applies Direct Preference Optimization (DPO) to adapt Mistral-7B, a locally deployable language model, using 8,838 heart failure nursing notes from the MIMIC-III database and 21,210 preference pairs derived from expert-verified GPT outputs, model generations, and original notes. Evaluation across BLEU, ROUGE, BERTScore, Perplexity, and expert qualitative assessments demonstrates that DPO markedly enhances documentation quality. Specifically, BLEU increased by 84% (0.173 to 0.318), BERTScore improved by 7.6% (0.828 to 0.891), and expert ratings rose across accuracy (+14.4 points), completeness (+14.5 points), logical consistency (+14.1 points), readability (+11.1 points), and structural clarity (+6.0 points). These results indicate that DPO can align lightweight clinical language models with expert standards, supporting privacy-preserving, AI-assisted documentation within electronic health record systems to reduce administrative burden and improve ICU patient safety.

Aligning Language Models with Clinical Expertise: DPO for Heart Failure Nursing Documentation in Critical Care

TL;DR

Abstract

Aligning Language Models with Clinical Expertise: DPO for Heart Failure Nursing Documentation in Critical Care

TL;DR

Abstract

Paper Structure

Table of Contents

Figures (2)