通用嵌套越狱提示可轻松骗过大型语言模型

招新小广告CTF组诚招re、crypto、pwn、misc、合约方向的师傅,长期招新IOT+Car+工控+样本分析多个组招人有意向的师傅请联系邮箱

admin@chamd5.org(带上简历和想加入的小组)

前言

本篇来自南京大学新型软件技术国家重点实验室和美团联合发表的论文，主旨依然是对LLM的越狱提示攻击，概括为两个方面：提示重写（Prompt Rewriting）和场景嵌套（Scenario Nesting）。在此基础上，作者提出了 ReNeLLM，一个利用 LLM 自身生成有效越狱提示的自动框架。

ReNeLLM

ReNeLLM，一个自动生成越狱提示的通用框架。
ReNeLLM 将越狱提示攻击概括为两个方面：提示重写和场景嵌套。
前者涉及在不改变初始提示语语义的情况下对其进行一系列改写操作，而后者则为改写后的提示语选择一个场景，并通过嵌套对其进行进一步伪装。值得注意的是整个过程由 LLM 自动完成，无需额外的培训和优化。

提示重写

鉴于现有的安全调整技术可以让 LLM 轻松拒绝最初的有害提示，作者认为成功越狱的关键在于伪装这些最初的有害提示的意图。论文提出在不改变语义的情况下对单词或句子进行重写，可以增加 LLMs 识别提示语的难度。具体来说，作者设计了以下六种重写功能：

用更少的词语进行转述。
改变句子结构
拼错敏感词
插入无意义字符
执行部分翻译
改变表达方式

场景嵌套

在经过多次改写后可能会变得无害，因此作者将此 LLM 改用为有害分类器，用于判断给定的提示语是否包含任何潜在的负面、不道德或非法内容。符合标准的提示将进入情景嵌套步骤，否则，将重新执行重写操作。

论文中还特别提到，他们受到了《GPT-4 Is Too Smart To Be Safe: Stealthy Chat with LLMs via Cipher》的研究启发，他们发现用密码聊天可以绕过 LLMs 的安全对齐技术，从而暴露了 LLMs 在面对非自然语言时的脆弱性。
此外，他们还发现，在预训练数据中从未出现过的密码不起作用。
因此提出一个假设，即一个好的指令嵌套场景必须出现在 LLM 的预训练或 SFT 数据中，并在提高 LLM 的某些方面能力方面发挥重要作用。另一方面，将代码数据纳入预训练或 SFT 数据可能是增强 LLMs推理和推理能力的关键因素。
将代码完成的场景作为种子场景，并通过查询 LLM 生成不同的指令场景。最后，得到了三种通用场景：代码完成、表格填充和文本续写。
这三种情景的共同点是，它们与训练数据（都出现在训练数据中）或 LLM 的训练目标（都是基于语言建模的生成任务）相一致，并且都在情景中留下了空白，类似于句子级的掐词任务。

ReNeLLM 生成的越狱攻击提示在 7 个 LLM 上的各类 ASR

在不同 LLM 上测量的 ASR 和 ASR-E（代表ASREnsemble）

分析

为了探索在从初始提示到越狱提示的过程中，哪些部分更有助于绕过 LLM 的安全排列，我们进行了大量的消融实验。
我们选择了两个重写操作（PFW 和 MSW）和一个场景嵌套（代码完成）。从下面表的结果来看，所有 LLM 对初始提示都表现出了出色的防御性能。PFW 和 MSW 等重写操作仅在少数样本中有效。

消融研究。PFW 表示少字转述，MSW 表示拼写错误敏感词。

令人惊讶的是，将初始提示与代码嵌套相结合时，这些提示在 gpt-3.5 和 Claude-1 上展现出了强大的攻击能力，例如 GPT-3.5 的 ASR 为 95.4%，Claude-1 的 ASR 为 62.3%，这表明了场景嵌套的有效性。
另一方面，对于安全性更好的 llama-2-chat 系列，仅靠场景嵌套还不足以取得良好的攻击效果。
最后，ReNeLLM 利用 LLM 本身来寻找改写和嵌套的最佳组合，在几乎所有 LLM 上都取得了惊人的 ASR 改进，例如在 llama-2-chat-70b 上改进了 40% 以上，这证明了所提方法的有效性。

结束

招新小广告

ChaMd5 Venom 招收大佬入圈

新成立组IOT+工控+样本分析长期招新

欢迎联系admin@chamd5.org

长亭百川云 - 文章详情

长亭百川云