VLMDiff: Leveraging Vision-Language Models for Multi-Class Anomaly Detection with Diffusion

Samet Hicsonmez; Abd El Rahman Shabayek; Djamila Aouada

VLMDiff: Leveraging Vision-Language Models for Multi-Class Anomaly Detection with Diffusion

Samet Hicsonmez, Abd El Rahman Shabayek, Djamila Aouada

TL;DR

VLMDiff tackles unsupervised multi-class visual anomaly detection by conditioning a latent diffusion model on detailed captions produced by a Vision-Language Model. It eliminates per-class training and synthetic anomaly generation by using VLM-derived descriptions as training signals, guiding reconstruction of normal images across diverse categories. The approach achieves state-of-the-art pixel-level localization on Real-IAD and COCO-AD, outperforming diffusion-based baselines by up to 25 and 8 PRO points, and generalizes to real-world industrial data with a single model per dataset. The method's practical impact lies in scalable, robust anomaly detection for complex scenes without extensive labeled data.

Abstract

Detecting visual anomalies in diverse, multi-class real-world images is a significant challenge. We introduce \ours, a novel unsupervised multi-class visual anomaly detection framework. It integrates a Latent Diffusion Model (LDM) with a Vision-Language Model (VLM) for enhanced anomaly localization and detection. Specifically, a pre-trained VLM with a simple prompt extracts detailed image descriptions, serving as additional conditioning for LDM training. Current diffusion-based methods rely on synthetic noise generation, limiting their generalization and requiring per-class model training, which hinders scalability. \ours, however, leverages VLMs to obtain normal captions without manual annotations or additional training. These descriptions condition the diffusion model, learning a robust normal image feature representation for multi-class anomaly detection. Our method achieves competitive performance, improving the pixel-level Per-Region-Overlap (PRO) metric by up to 25 points on the Real-IAD dataset and 8 points on the COCO-AD dataset, outperforming state-of-the-art diffusion-based approaches. Code is available at https://github.com/giddyyupp/VLMDiff.

VLMDiff: Leveraging Vision-Language Models for Multi-Class Anomaly Detection with Diffusion

TL;DR

Abstract

VLMDiff: Leveraging Vision-Language Models for Multi-Class Anomaly Detection with Diffusion

TL;DR

Abstract

Paper Structure

Table of Contents

Figures (13)