Jailbreaking Attack against Multimodal Large Language Model

Jailbreaking Attack against Multimodal Large Language Model

本文重点关注针对多模式大语言模型 (MLLM) 的越狱攻击,试图引发 MLLM 对有害查询生成有害回答。提出了一种基于最大似然的算法来查找图像越狱提示(imgJP),从而能够跨多个未见的提示和图像(即数据通用属性)对 MLLM 进行越狱。该方法表现出很强的模型可转移性,因为生成的 imgJP 可以以黑盒方式转移到越狱各种模型,包括 MiniGPT-v2、LLaVA、InstructBLIP 和 mPLUGOwl2。此外,还揭示了 MLLM 越狱和 LLM 越狱之间的联系。最后引入了一种基于构造的方法来实现 LLM 越狱方法,证明了比当前最先进的方法更高的效率。

Read more