Inspecting and Editing Knowledge Representations in Language Models
LLM 知识编辑调研

LLM 知识编辑调研

大语言模型(LMMs)惊人的知识保留能力,归功于 LLMs 处理和压缩大量数据的方式,可能形成了更简洁、连贯且可解释的生成过程模型,本质上是创建了一种“世界模型”。

Read more
Jailbreaking Attack against Multimodal Large Language Model

Jailbreaking Attack against Multimodal Large Language Model

本文重点关注针对多模式大语言模型 (MLLM) 的越狱攻击,试图引发 MLLM 对有害查询生成有害回答。提出了一种基于最大似然的算法来查找图像越狱提示(imgJP),从而能够跨多个未见的提示和图像(即数据通用属性)对 MLLM 进行越狱。该方法表现出很强的模型可转移性,因为生成的 imgJP 可以以黑盒方式转移到越狱各种模型,包括 MiniGPT-v2、LLaVA、InstructBLIP 和 mPLUGOwl2。此外,还揭示了 MLLM 越狱和 LLM 越狱之间的联系。最后引入了一种基于构造的方法来实现 LLM 越狱方法,证明了比当前最先进的方法更高的效率。

Read more