大语言模型(LMMs)惊人的知识保留能力,归功于 LLMs 处理和压缩大量数据的方式,可能形成了更简洁、连贯且可解释的生成过程模型,本质上是创建了一种“世界模型”。
大语言模型(LMMs)惊人的知识保留能力,归功于 LLMs 处理和压缩大量数据的方式,可能形成了更简洁、连贯且可解释的生成过程模型,本质上是创建了一种“世界模型”。
Jailbreaking Attack against Multimodal Large Language Model
本文重点关注针对多模式大语言模型 (MLLM) 的越狱攻击,试图引发 MLLM 对有害查询生成有害回答。提出了一种基于最大似然的算法来查找图像越狱提示(imgJP),从而能够跨多个未见的提示和图像(即数据通用属性)对 MLLM 进行越狱。该方法表现出很强的模型可转移性,因为生成的 imgJP 可以以黑盒方式转移到越狱各种模型,包括 MiniGPT-v2、LLaVA、InstructBLIP 和 mPLUGOwl2。此外,还揭示了 MLLM 越狱和 LLM 越狱之间的联系。最后引入了一种基于构造的方法来实现 LLM 越狱方法,证明了比当前最先进的方法更高的效率。
Towards More Faithful Natural Language Explanation Using Multi-Level Contrastive Learning in VQA
一种新的基于自监督多层次对比学习的VQA自然语言解释模型 (MCLE),该模型具有语义级、图像级和实例级的事实和反事实样本。
MCLE提取判别特征,并将特征空间中的解释与视觉问题和答案对齐,以产生更一致的解释。作者进行了大量的实验和案例研究,以证明提出的方法在两个VQA-NLE基准上的有效性。