Benchmarking Compact VLMs for Clip-Level Surveillance Anomaly Detection Under Weak Supervision

Kirill Borodin; Kirill Kondrashov; Nikita Vasiliev; Ksenia Gladkova; Inna Larina; Mikhail Gorodnichev; Grach Mkrtchian

Benchmarking Compact VLMs for Clip-Level Surveillance Anomaly Detection Under Weak Supervision

Kirill Borodin, Kirill Kondrashov, Nikita Vasiliev, Ksenia Gladkova, Inna Larina, Mikhail Gorodnichev, Grach Mkrtchian

Abstract

CCTV safety monitoring demands anomaly detectors combine reliable clip-level accuracy with predictable per-clip latency despite weak supervision. This work investigates compact vision-language models (VLMs) as practical detectors for this regime. A unified evaluation protocol standardizes preprocessing, prompting, dataset splits, metrics, and runtime settings to compare parameter-efficiently adapted compact VLMs against training-free VLM pipelines and weakly supervised baselines. Evaluation spans accuracy, precision, recall, F1, ROC-AUC, and average per-clip latency to jointly quantify detection quality and efficiency. With parameter-efficient adaptation, compact VLMs achieve performance on par with, and in several cases exceeding, established approaches while retaining competitive per-clip latency. Adaptation further reduces prompt sensitivity, producing more consistent behavior across prompt regimes under the shared protocol. These results show that parameter-efficient fine-tuning enables compact VLMs to serve as dependable clip-level anomaly detectors, yielding a favorable accuracy-efficiency trade-off within a transparent and consistent experimental setup.

Benchmarking Compact VLMs for Clip-Level Surveillance Anomaly Detection Under Weak Supervision

Abstract

Paper Structure (36 sections, 7 equations, 6 figures, 4 tables)

This paper contains 36 sections, 7 equations, 6 figures, 4 tables.

Introduction
Context and Relevance
Research Problem and Associated Challenges
Field Snapshot
Gap and Rationale
Contribution
Materials and Methods
Data
Models
Prompting Protocols
Fine-Tuning and Hyperparameters
Inference and Evaluation
Baselines description
Runtime
Results
...and 21 more sections

Figures (6)

Figure S1: Overview of the proposed multimodal inference pipeline for video anomaly detection, integrating LoRA-fine-tuned VLMs with prompting strategies for enhanced accuracy and efficiency.
Figure S2: Confusion matrix for tiny models with different prompt types on UCF-crime dataset.
Figure S3: Confusion matrix for small models with different prompt types on UCF-crime dataset.
Figure S4: Confusion matrix for tiny models finetuned with LoRA with different prompt types on UCF-crime dataset.
Figure S5: Confusion matrix for different models on UCF-crime dataset.
...and 1 more figures

Benchmarking Compact VLMs for Clip-Level Surveillance Anomaly Detection Under Weak Supervision

Abstract

Benchmarking Compact VLMs for Clip-Level Surveillance Anomaly Detection Under Weak Supervision

Authors

Abstract

Table of Contents

Figures (6)