Breynald Shelter

Posted 2025-01-01Paper / Jailbreak8 minutes read (About 1248 words)

Jailbreaking Attack against Multimodal Large Language Model

本文重点关注针对多模式大语言模型 (MLLM) 的越狱攻击，试图引发 MLLM 对有害查询生成有害回答。提出了一种基于最大似然的算法来查找图像越狱提示（imgJP），从而能够跨多个未见的提示和图像（即数据通用属性）对 MLLM 进行越狱。该方法表现出很强的模型可转移性，因为生成的 imgJP 可以以黑盒方式转移到越狱各种模型，包括 MiniGPT-v2、LLaVA、InstructBLIP 和 mPLUGOwl2。此外，还揭示了 MLLM 越狱和 LLM 越狱之间的联系。最后引入了一种基于构造的方法来实现 LLM 越狱方法，证明了比当前最先进的方法更高的效率。

Categories

Archives

Recents

Tags