Jailbreaking Attack against Multimodal Large Language Model
本文重点关注针对多模式大语言模型 (MLLM) 的越狱攻击,试图引发 MLLM 对有害查询生成有害回答。提出了一种基于最大似然的算法来查找图像越狱提示(imgJP),从而能够跨多个未见的提示和图像(即数据通用属性)对 MLLM 进行越狱。该方法表现出很强的模型可转移性,因为生成的 imgJP 可以以黑盒方式转移到越狱各种模型,包括 MiniGPT-v2、LLaVA、InstructBLIP 和 mPLUGOwl2。此外,还揭示了 MLLM 越狱和 LLM 越狱之间的联系。最后引入了一种基于构造的方法来实现 LLM 越狱方法,证明了比当前最先进的方法更高的效率。
针对多模态大语言模型的越狱攻击
基于 image Jailbreaking Prompt (imgJP) 的越狱
使用 imgJP 进行越狱。到遇到有害请求时,尝试最大化生成有害回答的可能性。目标输出通常以积极的肯定开始,例如“Sure, here is a (content of query)”。
具体来说,对于每个有害请求 $q_i$,提供相应的有害回答 $a_i$,创建有害行为数据集 $B = {(q_i, a_i), i = 0, …, N }$,然后寻找 $x_{jp}$,以便当用户输入有害查询 $q_i$ 时鼓励 MLLM 生成有害答案 $a_i$:
以下是一个 jmgJP 的越狱例子:
实证研究表明,该方法具有很强的提示通用性,因为在 M = 25 个提示上训练 imgJP 足以泛化到其他 300 个未见过的提示:
在代理模型(例如,Vicuna 和 LLaMA2)上生成 imgJP,并使用生成的 imgJP 以黑盒方式越狱各种目标模型:
基于 deltaJP 的越狱
第二种情况下,提供的输入图像 $x_{in}$ ,找到图像扰动 deltaJP $\delta$ ,使得扰动的图像 $x_{in} + \delta$ 允许生成令人反感的内容。值得注意的是,$\delta$ 受到攻击预算 $\epsilon$ 的约束,以确保 $x_{in} + \delta$ 看起来与原始输入图像 $x_{in}$ 相似:
以下是一个例子:
给定从特定分布 $D$ 采样的图像集 $x_j \in D$ 中学习通用图像扰动:
从表中观察到该方法表现出某种图像通用属性。 ASR 显示不同类别之间的不平衡:
模型可迁移性的联合学习
在本文中,联合多个 MLLM 作为代理模型,这增强了攻击的可转移性。
具体来说,将 MiniGPT-4(vicuna7B)、MiniGPT4(vicuna13B) 和 MiniGPT-4(LLaMA2) 作为三个代理模型:
一般来说,联合训练的模型越多,实现的可移植性就越高:
使用不同的随机种子运行这些实验两次以获得两个 imgJP。Average 和 Ensemble 分别是两个 imgJP 的平均和集成结果
基于 Construction 的 LLM 越狱方法
MLLM 本质上包含 LLM 。因此,MLLM 和 LLM 越狱之间存在密切联系,使我们能够利用 MLLM 越狱方法有效地进行 LLM 越狱攻击。
具体来说,为了越狱目标 LLM,首先构建一个封装它的 MLLM。其次,执行 MLLM 越狱以获取 imgJP,同时记录嵌入 embJP。随后,通过 De-embedding 和 De-tokenizer 操作将 embJP 反转到文本空间。对于 $embJP (e_0, e_1, …, e_{L−1})$ 中的每个嵌入向量 $e_l$ ,在字典中识别出前 $K$ 个相似嵌入 $\hat{e}_l^k , k = 0, …, K − 1$ 。对所有 $e_l, l = 0, …, L − 1$ 重复此过程,产生一个 $K × L$ 文本池。
最后,我们可以从文本池中随机抽取一些词序列作为 txtJP 。采样的 txtJP 可用于越狱目标 LLM。
有多种获取txtJP的方案:
- 对于每个嵌入 $e_l$,我们在字典中找到前 $K$ 个相似的嵌入;
- 随机采样一个 $e^k_l$;
- 重复随机采样 N 次,产生 N 个候选 txtJP,并逐一尝试这些 txtJP。
结论
本文深入研究了针对多模态大型语言模型(MLLM)的越狱攻击。提出了一种基于最大似然的越狱方法,具有很强的数据通用性,可以对多个未见的提示词和图像进行越狱。此外,该方法表现出显著的模型迁移能力,能够对 LLaVA、InstructBLIP 和 mPLUG-Owl2 等多种模型进行黑箱越狱。更重要的是,揭示了 MLLM 越狱与 LLM 越狱之间的联系。我们引入了一种基于构造的方法,将我们的方法用于 LLM 越狱,并展示了其在效率上优于当前最先进的方法。
Jailbreaking Attack against Multimodal Large Language Model