Advancing Chronic Tuberculosis Diagnostics Using Vision-Language Models: A Multi modal Framework for Precision Analysis

Praveen Shastry; Sowmya Chowdary Muthulur; Naveen Kumarasami; Anandakumar D; Mounigasri M; Keerthana R; Kishore Prasath Venkatesh; Bargava Subramanian; Kalyan Sivasailam; Revathi Ezhumalai; Abitha Marimuthu

Advancing Chronic Tuberculosis Diagnostics Using Vision-Language Models: A Multi modal Framework for Precision Analysis

Praveen Shastry, Sowmya Chowdary Muthulur, Naveen Kumarasami, Anandakumar D, Mounigasri M, Keerthana R, Kishore Prasath Venkatesh, Bargava Subramanian, Kalyan Sivasailam, Revathi Ezhumalai, Abitha Marimuthu

TL;DR

This work presents a Vision-Language Model for automated chronic TB screening that fuses chest X-ray imagery with patient clinical data using a ViT-based visual encoder, a SIGLIP text encoder, cross-modal attention, and the Gemma-3b decoder. Pre-trained on 5 million image-text pairs and fine-tuned on 100k chronic TB X-rays, the model achieves high performance with precision and recall around 94%, AUC > 0.93, and IoU > 0.91 for key pathologies such as fibrosis, calcified granulomas, and bronchiectasis. The approach enables context-aware, radiograph-informed diagnostic reporting, aiming to reduce dependence on radiologists in resource-constrained settings. Limitations include issues with diffuse pathologies and dataset biases, with future work targeting subtle signs and broader generalizability across populations.

Abstract

Background: This study proposes a Vision-Language Model (VLM) leveraging the SIGLIP encoder and Gemma-3b transformer decoder to enhance automated chronic tuberculosis (TB) screening. By integrating chest X-ray images with clinical data, the model addresses the challenges of manual interpretation, improving diagnostic consistency and accessibility, particularly in resource-constrained settings. Methods: The VLM architecture combines a Vision Transformer (ViT) for visual encoding and a transformer-based text encoder to process clinical context, such as patient histories and treatment records. Cross-modal attention mechanisms align radiographic features with textual information, while the Gemma-3b decoder generates comprehensive diagnostic reports. The model was pre-trained on 5 million paired medical images and texts and fine-tuned using 100,000 chronic TB-specific chest X-rays. Results: The model demonstrated high precision (94 percent) and recall (94 percent) for detecting key chronic TB pathologies, including fibrosis, calcified granulomas, and bronchiectasis. Area Under the Curve (AUC) scores exceeded 0.93, and Intersection over Union (IoU) values were above 0.91, validating its effectiveness in detecting and localizing TB-related abnormalities. Conclusion: The VLM offers a robust and scalable solution for automated chronic TB diagnosis, integrating radiographic and clinical data to deliver actionable and context-aware insights. Future work will address subtle pathologies and dataset biases to enhance the model's generalizability, ensuring equitable performance across diverse populations and healthcare settings.

Advancing Chronic Tuberculosis Diagnostics Using Vision-Language Models: A Multi modal Framework for Precision Analysis

TL;DR

Abstract

Advancing Chronic Tuberculosis Diagnostics Using Vision-Language Models: A Multi modal Framework for Precision Analysis

TL;DR

Abstract

Paper Structure

Table of Contents

Figures (3)