Metric-Fair Prompting: Treating Similar Samples Similarly

Jing Wang; Jie Shen; Xing Niu; Tong Zhang; Jeremy Weiss

Metric-Fair Prompting: Treating Similar Samples Similarly

Jing Wang, Jie Shen, Xing Niu, Tong Zhang, Jeremy Weiss

TL;DR

The paper presents Metric-Fair Prompting, a fairness-aware prompting framework that enforces a metric-based Lipschitz constraint to ensure similar (question, option) items yield similar scores in MedQA. It introduces a joint-inference protocol over similar questions to promote cross-item consistency and reduce near-boundary errors, guided by clinically decisive features and a margin-based scoring mechanism. Empirical evaluation on MedQA-US shows substantial accuracy gains over standard single-item prompting, suggesting that fairness-guided, confidence-oriented reasoning can improve LLM performance in high-stakes clinical QA. The work integrates embedding-based similarity with constraint-based reasoning to enhance robustness and reliability in medical question answering.

Abstract

We introduce \emph{Metric-Fair Prompting}, a fairness-aware prompting framework that guides large language models (LLMs) to make decisions under metric-fairness constraints. In the application of multiple-choice medical question answering, each {(question, option)} pair is treated as a binary instance with label $+1$ (correct) or $-1$ (incorrect). To promote {individual fairness}~--~treating similar instances similarly~--~we compute question similarity using NLP embeddings and solve items in \emph{joint pairs of similar questions} rather than in isolation. The prompt enforces a global decision protocol: extract decisive clinical features, map each $(\text{question}, \text{option})$ to a score $f(x)$ that acts as confidence, and impose a Lipschitz-style constraint so that similar inputs receive similar scores and, hence, consistent outputs. Evaluated on the {MedQA (US)} benchmark, Metric-Fair Prompting is shown to improve performance over standard single-item prompting, demonstrating that fairness-guided, confidence-oriented reasoning can enhance LLM accuracy on high-stakes clinical multiple-choice questions.

Metric-Fair Prompting: Treating Similar Samples Similarly

TL;DR

Abstract

Metric-Fair Prompting: Treating Similar Samples Similarly

TL;DR

Abstract

Paper Structure

Table of Contents

Figures (6)

Theorems & Definitions (1)