Securing Vision-Language Models with a Robust Encoder Against Jailbreak and Adversarial Attacks

Md Zarif Hossain; Ahmed Imteaj

Securing Vision-Language Models with a Robust Encoder Against Jailbreak and Adversarial Attacks

Md Zarif Hossain, Ahmed Imteaj

TL;DR

A novel defense mechanism that adversarially fine-tunes the CLIP vision encoder by leveraging a Siamese architecture, allowing seamless integration into existing LVLM architectures as a robust vision encoder and demonstrating effectiveness against both gradient-based adversarial attacks and various jailbreak techniques.

Abstract

Large Vision-Language Models (LVLMs), trained on multimodal big datasets, have significantly advanced AI by excelling in vision-language tasks. However, these models remain vulnerable to adversarial attacks, particularly jailbreak attacks, which bypass safety protocols and cause the model to generate misleading or harmful responses. This vulnerability stems from both the inherent susceptibilities of LLMs and the expanded attack surface introduced by the visual modality. We propose Sim-CLIP+, a novel defense mechanism that adversarially fine-tunes the CLIP vision encoder by leveraging a Siamese architecture. This approach maximizes cosine similarity between perturbed and clean samples, facilitating resilience against adversarial manipulations. Sim-CLIP+ offers a plug-and-play solution, allowing seamless integration into existing LVLM architectures as a robust vision encoder. Unlike previous defenses, our method requires no structural modifications to the LVLM and incurs minimal computational overhead. Sim-CLIP+ demonstrates effectiveness against both gradient-based adversarial attacks and various jailbreak techniques. We evaluate Sim-CLIP+ against three distinct jailbreak attack strategies and perform clean evaluations using standard downstream datasets, including COCO for image captioning and OKVQA for visual question answering. Extensive experiments demonstrate that Sim-CLIP+ maintains high clean accuracy while substantially improving robustness against both gradient-based adversarial attacks and jailbreak techniques. Our code and robust vision encoders are available at https://github.com/speedlab-git/Robust-Encoder-against-Jailbreak-attack.git.

Securing Vision-Language Models with a Robust Encoder Against Jailbreak and Adversarial Attacks

TL;DR

Abstract

Paper Structure (18 sections, 4 equations, 3 figures, 5 tables)

This paper contains 18 sections, 4 equations, 3 figures, 5 tables.

Introduction
Contributions
Background Study
Jailbreak Attacks
ImgJP Attack
VisualAdv Attack
HADES
Methodology
Defending Against Jailbreak Attacks with Sim-CLIP+
Preventing Symmetric Loss Collapse
Experimental Analysis
Adversarial fine-tuning settings
LVLM models
Jailbreak attack settings
Metrics
...and 3 more sections

Figures (3)

Figure 1: Jailbreak attack on LVLM: adversarial image paired with harmful instructions is used as input. The adversarial image bypasses the LVLM's safety guardrails, causing it to generate harmful output.
Figure 2: Workflow and overview of proposed Sim-CLIP+ : (a) CLIP is adversarially fine-tuned on ImageNET dataset tailoring our methodology, and (b) the robust Sim-CLIP+ encoder processes adversarial images alongside harmful text prompts, effectively mitigating jailbreak attempts within the LVLM.
Figure 3: Qualitative examples of jailbreak attacks on LLaVA (Llama-2-13B) models with original CLIP and Sim-CLIP+ as vision encoders. In both of the cases, LLaVA with CLIP vision encoder is compromised and outputs malicious content, while LLaVA with Sim-CLIP+ remains robust.

Securing Vision-Language Models with a Robust Encoder Against Jailbreak and Adversarial Attacks

TL;DR

Abstract

Securing Vision-Language Models with a Robust Encoder Against Jailbreak and Adversarial Attacks

Authors

TL;DR

Abstract

Table of Contents

Figures (3)