Breynald Shelter

Posted 2025-01-18Paper / Knowledge Editing6 minutes read (About 946 words)

Inspecting and Editing Knowledge Representations in Language Models

论文提出了一种名为REMEDI（Representation Mediation）的方法，通过学习将自然语言中的陈述映射到语言模型内部表示系统中的事实编码。

Posted 2025-01-17Paper / Knowledge Editingan hour read (About 7414 words)

LLM 知识编辑调研

大语言模型（LMMs）惊人的知识保留能力，归功于 LLMs 处理和压缩大量数据的方式，可能形成了更简洁、连贯且可解释的生成过程模型，本质上是创建了一种“世界模型”。

Posted 2025-01-01Paper / Jailbreak8 minutes read (About 1248 words)

Jailbreaking Attack against Multimodal Large Language Model

本文重点关注针对多模式大语言模型 (MLLM) 的越狱攻击，试图引发 MLLM 对有害查询生成有害回答。提出了一种基于最大似然的算法来查找图像越狱提示（imgJP），从而能够跨多个未见的提示和图像（即数据通用属性）对 MLLM 进行越狱。该方法表现出很强的模型可转移性，因为生成的 imgJP 可以以黑盒方式转移到越狱各种模型，包括 MiniGPT-v2、LLaVA、InstructBLIP 和 mPLUGOwl2。此外，还揭示了 MLLM 越狱和 LLM 越狱之间的联系。最后引入了一种基于构造的方法来实现 LLM 越狱方法，证明了比当前最先进的方法更高的效率。

Categories

Archives

Recents

Tags