UniGuard: Towards Universal Safety Guardrails for Jailbreak Attacks on Multimodal Large Language Models

Mon, 03 Mar 2025 00:00:00 +0000

Abstract

Multimodal LLMs are vulnerable to jailbreak attacks that exploit cross-modal interactions. We introduce UniGuard, a universal safety guardrail framework that defends multimodal LLMs against jailbreak attacks across image and text channels.

Jailbreak Defense | Yiqiao Jin CS PhD @ Georgia Tech

UniGuard: Towards Universal Safety Guardrails for Jailbreak Attacks on Multimodal Large Language Models

Abstract

Links