Addressing Data Scarcity in 3D Trauma Detection through Self-Supervised and Semi-Supervised Learning with Vertex Relative Position Encoding

Shivam Chaudhary; Sheethal Bhat; Andreas Maier

Addressing Data Scarcity in 3D Trauma Detection through Self-Supervised and Semi-Supervised Learning with Vertex Relative Position Encoding

Shivam Chaudhary, Sheethal Bhat, Andreas Maier

Abstract

Accurate detection and localization of traumatic injuries in abdominal CT scans remains a critical challenge in emergency radiology, primarily due to severe scarcity of annotated medical data. This paper presents a label-efficient approach combining self-supervised pre-training with semi-supervised detection for 3D medical image analysis. We employ patch-based Masked Image Modeling (MIM) to pre-train a 3D U-Net encoder on 1,206 CT volumes without annotations, learning robust anatomical representations. The pretrained encoder enables two downstream clinical tasks: 3D injury detection using VDETR with Vertex Relative Position Encoding, and multi-label injury classification. For detection, semi-supervised learning with 2,000 unlabeled volumes and consistency regularization achieves 56.57% validation mAP@0.50 and 45.30% test mAP@0.50 with only 144 labeled training samples, representing a 115% improvement over supervised-only training. For classification, expanding to 2,244 labeled samples yields 94.07% test accuracy across seven injury categories using only a frozen encoder, demonstrating immediately transferable self-supervised features. Our results validate that self-supervised pre-training combined with semi-supervised learning effectively addresses label scarcity in medical imaging, enabling robust 3D object detection with limited annotations.

Addressing Data Scarcity in 3D Trauma Detection through Self-Supervised and Semi-Supervised Learning with Vertex Relative Position Encoding

Abstract

Paper Structure (25 sections, 14 equations, 6 figures, 6 tables)

This paper contains 25 sections, 14 equations, 6 figures, 6 tables.

Introduction
Background and motivation
Proposed Approach
Paper Organization
Literature Overview
Data Preprocessing Pipeline
Dataset Overview and Structure
Preprocessing Pipeline for Unlabeled Volumes
Preprocessing Pipeline for Labeled Volumes
Data Preprocessing Summary
Methodology
Self-Supervised Representation Learning
Downstream Task I: 3D Injury Detection
Downstream Task II: Injury Classification
Experimental and Evaluation Results
...and 10 more sections

Figures (6)

Figure 1: Preprocessing pipeline for labeled CT volumes. (a) Raw DICOM slice in Hounsfield Units showing native acquisition, (b) aligned injury segmentation mask overlaid in red, (c) volume after anisotropic resampling (2.0×1.0×1.0 mm) and intensity normalization to [0,1], (d) final standardized volume with dimensions (512×336×336) after center-cropping.
Figure 2: 3D U-Net encoder-decoder architecture with patch-based MIM for self-supervised pre-training.
Figure 3: VDETR decoder architecture with 3D Vertex RPE for injury detection.
Figure 4: Classification head architecture for multi-label injury prediction.
Figure 5: VDETR training without semi-supervised learning exhibiting severe training instability and catastrophic performance collapse.
...and 1 more figures

Addressing Data Scarcity in 3D Trauma Detection through Self-Supervised and Semi-Supervised Learning with Vertex Relative Position Encoding

Abstract

Addressing Data Scarcity in 3D Trauma Detection through Self-Supervised and Semi-Supervised Learning with Vertex Relative Position Encoding

Authors

Abstract

Table of Contents

Figures (6)