OpenAI 近日发布了性价比极高的轻量化模型 GPT-4o Mini,入局大模型价格战,支持 128K 上下文长度、多模态,能力接近 GPT-4,价格却比 GPT-3.5 Turbo 便宜 60%,大幅降低了大模型应用的成本。同时我们关注到 OpenAI GPT-4o Mini 在大模型安全性方面也给出了新的尝试。
Prompt 指令注入、越狱、提示词窃取,是伴随大模型而生的一种典型攻击手法,一直困扰着大模型应用,带来了无法避免的安全挑战。
在安全性方面,GPT-4o Mini 内置了多种防护措施。在预训练阶段,过滤掉仇恨言论、垃圾信息等低质量数据。在后训练阶段,通过人类反馈强化学习(RLHF)技术,使模型行为与 OpenAI 政策保持一致。另外引入了超过 70 位外部专家,从社会心理学、虚假信息等领域识别并解决潜在的风险。
除此之外,现在 OpenAI 给出了一种新的解法,可能从原理上解决此类问题。
API 版本的 GPT-4o Mini 是第一个应用了 OpenAI 指令层级技术的模型,提高了模型抵御越狱、提示注入和系统提示窃取攻击的能力,有助于模型更安全的大规模应用。
2024年4月份,OpenAI 发表了一篇名为 《指令层级:训练大型语言模型优先处理特权指令》的论文:https://arxiv.org/abs/2404.13208
论文中,作者提出了一种指令层级架构,定义了不同优先级的指令类型,例如:系统提示(最高优先级)、用户输入(次高优先级)、工具输出(最低优先级)等。通过合成训练数据的方法,训练模型在面对不同优先级指令的冲突时,可以根据优先级进行排序,有选择性地忽略有冲突的低优先级指令。
例如:当 “系统提示” 与 “用户输入” 两者出现冲突,大模型应该优先遵循 “系统提示”。在智能体上,这种指令架构优势会尤为明显,可以让大模型更加重视开发者的原始提示,而不是盲目遵从用户注入的各种破坏性提示。
指令层次结构通过明确定义指令优先级,并训练模型有选择性地遵循高优先级指令,从而大幅提高模型对各种攻击的防护能力。
实测 GPT4 (第一句提示词是 System Prompt)
同样场景下,GPT4o Mini 表现如下
GPT-4o Mini
从测试结果看,有用,但目前还不够。
from gabriel
根据 AgentDojo 的测试结果,GPT-4o mini 与 GPT-4o 相比,Prompt 注入成功率降低了超过 20%
from Edoardo
然而,著名”最快越狱手“ @elder_plinius 也第一时间放出了越狱 Demo,让 GPT-4o Mini 输出恶意软件、毒品配方、脏话歌词以及如何窃取选举等越狱内容。
以上,OpenAI 在推出 GPT-4o Mini 的过程中,不仅在性价比上实现了重大突破,还在安全性方面进行了积极地探索和改进。尤其是“指令层级”技术的引入,尽管目前仍然不完美,但这一技术的方向无疑是正确且具有前瞻性的,期待未来的优化与表现。