HSEmotion Team at ABAW-10 Competition: Facial Expression Recognition, Valence-Arousal Estimation, Action Unit Detection and Fine-Grained Violence Classification

Andrey V. Savchenko; Kseniia Tsypliakova

HSEmotion Team at ABAW-10 Competition: Facial Expression Recognition, Valence-Arousal Estimation, Action Unit Detection and Fine-Grained Violence Classification

Andrey V. Savchenko, Kseniia Tsypliakova

Abstract

This article presents our results for the 10th Affective Behavior Analysis in-the-Wild (ABAW) competition. For frame-wise facial emotion understanding tasks (frame-wise facial expression recognition, valence-arousal estimation, action unit detection), we propose a fast approach based on facial embedding extraction with pre-trained EfficientNet-based emotion recognition models. If the latter model's confidence exceeds a threshold, its prediction is used. Otherwise, we feed embeddings into a simple multi-layered perceptron trained on the AffWild2 dataset. Estimated class-level scores are smoothed in a sliding window of fixed size to mitigate noise in frame-wise predictions. For the fine-grained violence detection task, we examine several pre-trained architectures for frame embeddings and their aggregation for video classification. Experimental results on four tasks from the ABAW challenge demonstrate that our approach significantly improves validation metrics over existing baselines.

HSEmotion Team at ABAW-10 Competition: Facial Expression Recognition, Valence-Arousal Estimation, Action Unit Detection and Fine-Grained Violence Classification

Abstract

Paper Structure (12 sections, 6 equations, 2 figures, 4 tables)

This paper contains 12 sections, 6 equations, 2 figures, 4 tables.

Introduction
Related Works
Proposed Approach
Frame-level Expression recognition
VA Estimation and AU detection
Fine-Grained Violence Detection
Experimental Results
Facial Expression Recognition
Valence-Arousal Estimation
Action Unit Detection
Fine-Grained Violence Detection
Conclusion

Figures (2)

Figure 1: Proposed approach for EXPR classification.
Figure 2: Our best single-stream frame-level violence detection pipeline. ConvNeXt-T (pretrained on ImageNet-1K) extracts 768-d per-frame features, processed by a 5-layer dilated TCN.

HSEmotion Team at ABAW-10 Competition: Facial Expression Recognition, Valence-Arousal Estimation, Action Unit Detection and Fine-Grained Violence Classification

Abstract

HSEmotion Team at ABAW-10 Competition: Facial Expression Recognition, Valence-Arousal Estimation, Action Unit Detection and Fine-Grained Violence Classification

Authors

Abstract

Table of Contents

Figures (2)