Posted 2025-01-01Paper / Jailbreak8 minutes read (About 1248 words)

Jailbreaking Attack against Multimodal Large Language Model

本文重点关注针对多模式大语言模型 (MLLM) 的越狱攻击，试图引发 MLLM 对有害查询生成有害回答。提出了一种基于最大似然的算法来查找图像越狱提示（imgJP），从而能够跨多个未见的提示和图像（即数据通用属性）对 MLLM 进行越狱。该方法表现出很强的模型可转移性，因为生成的 imgJP 可以以黑盒方式转移到越狱各种模型，包括 MiniGPT-v2、LLaVA、InstructBLIP 和 mPLUGOwl2。此外，还揭示了 MLLM 越狱和 LLM 越狱之间的联系。最后引入了一种基于构造的方法来实现 LLM 越狱方法，证明了比当前最先进的方法更高的效率。

针对多模态大语言模型的越狱攻击

基于 image Jailbreaking Prompt (imgJP) 的越狱

使用 imgJP 进行越狱。到遇到有害请求时，尝试最大化生成有害回答的可能性。目标输出通常以积极的肯定开始，例如“Sure, here is a (content of query)”。

具体来说，对于每个有害请求 $q_i$，提供相应的有害回答 $a_i$，创建有害行为数据集 $B = {(q_i, a_i), i = 0, …, N }$，然后寻找 $x_{jp}$，以便当用户输入有害查询 $q_i$ 时鼓励 MLLM 生成有害答案 $a_i$：

以下是一个 jmgJP 的越狱例子：

实证研究表明，该方法具有很强的提示通用性，因为在 M = 25 个提示上训练 imgJP 足以泛化到其他 300 个未见过的提示：

在代理模型（例如，Vicuna 和 LLaMA2）上生成 imgJP，并使用生成的 imgJP 以黑盒方式越狱各种目标模型:

基于 deltaJP 的越狱

第二种情况下，提供的输入图像 $x_{in}$ ，找到图像扰动 deltaJP $\delta$ ，使得扰动的图像 $x_{in} + \delta$ 允许生成令人反感的内容。值得注意的是，$\delta$ 受到攻击预算 $\epsilon$ 的约束，以确保 $x_{in} + \delta$ 看起来与原始输入图像 $x_{in}$ 相似:

以下是一个例子：

给定从特定分布 $D$ 采样的图像集 $x_j \in D$ 中学习通用图像扰动：

从表中观察到该方法表现出某种图像通用属性。 ASR 显示不同类别之间的不平衡：

模型可迁移性的联合学习

在本文中，联合多个 MLLM 作为代理模型，这增强了攻击的可转移性。

具体来说，将 MiniGPT-4(vicuna7B)、MiniGPT4(vicuna13B) 和 MiniGPT-4(LLaMA2) 作为三个代理模型：

一般来说，联合训练的模型越多，实现的可移植性就越高：

使用不同的随机种子运行这些实验两次以获得两个 imgJP。Average 和 Ensemble 分别是两个 imgJP 的平均和集成结果

基于 Construction 的 LLM 越狱方法

MLLM 本质上包含 LLM 。因此，MLLM 和 LLM 越狱之间存在密切联系，使我们能够利用 MLLM 越狱方法有效地进行 LLM 越狱攻击。

具体来说，为了越狱目标 LLM，首先构建一个封装它的 MLLM。其次，执行 MLLM 越狱以获取 imgJP，同时记录嵌入 embJP。随后，通过 De-embedding 和 De-tokenizer 操作将 embJP 反转到文本空间。对于 $embJP (e_0, e_1, …, e_{L−1})$ 中的每个嵌入向量 $e_l$ ，在字典中识别出前 $K$ 个相似嵌入 $\hat{e}_l^k , k = 0, …, K − 1$ 。对所有 $e_l, l = 0, …, L − 1$ 重复此过程，产生一个 $K × L$ 文本池。

最后，我们可以从文本池中随机抽取一些词序列作为 txtJP 。采样的 txtJP 可用于越狱目标 LLM。

有多种获取txtJP的方案：

对于每个嵌入 $e_l$，我们在字典中找到前 $K$ 个相似的嵌入;
随机采样一个 $e^k_l$;
重复随机采样 N 次，产生 N 个候选 txtJP，并逐一尝试这些 txtJP。

结论

本文深入研究了针对多模态大型语言模型（MLLM）的越狱攻击。提出了一种基于最大似然的越狱方法，具有很强的数据通用性，可以对多个未见的提示词和图像进行越狱。此外，该方法表现出显著的模型迁移能力，能够对 LLaVA、InstructBLIP 和 mPLUG-Owl2 等多种模型进行黑箱越狱。更重要的是，揭示了 MLLM 越狱与 LLM 越狱之间的联系。我们引入了一种基于构造的方法，将我们的方法用于 LLM 越狱，并展示了其在效率上优于当前最先进的方法。

Jailbreaking Attack against Multimodal Large Language Model

https://breynald.github.io/2025/01/01/MLLM-Jailbreak/