ConfusionBench: An Expert-Validated Benchmark for Confusion Recognition and Localization in Educational Videos

Lu Dong; Xiao Wang; Mark Frank; Srirangaraj Setlur; Venu Govindaraju; Ifeoma Nwogu

ConfusionBench: An Expert-Validated Benchmark for Confusion Recognition and Localization in Educational Videos

Lu Dong, Xiao Wang, Mark Frank, Srirangaraj Setlur, Venu Govindaraju, Ifeoma Nwogu

Abstract

Recognizing and localizing student confusion from video is an important yet challenging problem in educational AI. Existing confusion datasets suffer from noisy labels, coarse temporal annotations, and limited expert validation, which hinder reliable fine-grained recognition and temporally grounded analysis. To address these limitations, we propose a practical multi-stage filtering pipeline that integrates two stages of model-assisted screening, researcher curation, and expert validation to build a higher-quality benchmark for confusion understanding. Based on this pipeline, we introduce ConfusionBench, a new benchmark for educational videos consisting of a balanced confusion recognition dataset and a video localization dataset. We further provide zero-shot baseline evaluations of a representative open-source model and a proprietary model on clip-level confusion recognition, long-video confusion localization tasks. Experimental results show that the proprietary model performs better overall but tends to over-predict transitional segments, while the open-source model is more conservative and more prone to missed detections. In addition, the proposed student confusion report visualization can support educational experts in making intervention decisions and adapting learning plans accordingly. All datasets and related materials will be made publicly available on our project page.

ConfusionBench: An Expert-Validated Benchmark for Confusion Recognition and Localization in Educational Videos

Abstract

Paper Structure (15 sections, 5 figures, 3 tables)

This paper contains 15 sections, 5 figures, 3 tables.

Introduction
Related Work
Confusion Research
DAiSEE Dataset
Vision-language models (VLMs)
ConfusionBench Construction
Fine-Grained Two-Second Clip Segmentation
Model-Assisted Filtering
Researcher Curation
Expert Validation
Long-Video Confusion Localization
Experiments
Conclusion
Limitations
Ethics Consideration

Figures (5)

Figure 1: Facial Expressions of Confusion d2014confusion.
Figure 2: ConfuBench Construction Pipeline
Figure 3: Prompt Design
Figure 4: Sample student confusion visualization reports. These reports provide fast, interpretable cues that help educational experts determine whether intervention is needed and adjust instructional plans accordingly.
Figure 5: Comparison of Student Confusion Reports. The first row in red presents the ground-truth annotations. The second row in blue shows the predictions from Gemini (Gemini 3 Flash Preview), a proprietary multimodal model optimized for high-throughput inference. The third row in blue shows the predictions from Qwen (Qwen3-VL-4B-Instruct), a lightweight local multimodal model with strong video understanding capabilities.

ConfusionBench: An Expert-Validated Benchmark for Confusion Recognition and Localization in Educational Videos

Abstract

ConfusionBench: An Expert-Validated Benchmark for Confusion Recognition and Localization in Educational Videos

Authors

Abstract

Table of Contents

Figures (5)