【AI大模型】披着羊皮的狼--自动化生成越狱提示的系统(ReNeLLM)
南京大学 & 美团联合团队发表了一篇 NAACL 2024 论文《A Wolf in Sheep’s Clothing: Generalized Nested Jailbreak Prompts can Fool Large Language Models Easily》(披着羊皮的狼)。非常有意思的名字,他们提出了一套名叫 ReNeLLM 的自动化框架,让 ChatGPT、GPT-4、Claude-2、Llama2 等主流大模型集体失守。
一.研究背景与意义
随着 ChatGPT、GPT-4、Claude-2、Llama2-chat 等安全对齐(Safety-Alignment)大模型的规模化部署,其抵御恶意指令的能力成为产业落地的关键瓶颈。现有越狱(Jailbreak)方法可分为:
人工模板型(如 DAN),白盒优化型(如 GCG、AutoDAN)
当前越狱方法深陷“两重桎梏”:一端是纯手工雕琢的提示词——它们往往由安全研究员或社区极客凭经验反复试错而成,每一次模型升级或策略更新都意味着整套模板需推倒重来,迭代周期以周计、以月计,迅速失效;另一端则是基于梯度优化的对抗后缀搜索,这类方法虽然自动化程度高,却必须拿到目标模型的完整白盒权限,在替代模型上展开高维离散优化,动辄数千次前向-反向传播,GPU 小时数直线上升,而所得后缀通常是无意义的乱码或特殊标记,跨模型迁移后性能断崖式下跌,计算代价与实用价值严重失衡。
二:ReNeLLM 方法框架
ReNeLLM 框架的核心创新在于将越狱攻击系统性地抽象为两个维度:
1.提示重写 (Prompt Rewriting)
2.场景嵌套 (Scenario Nesting)
2.1 Prompt Rewriting
提示重写技术设计了6种重写函数来掩盖恶意意图:
压缩改写:将提示压缩到6个词以内
句式重构:改变词序但保持语义不变
敏感词拼错:故意拼错关键敏感词汇
插入干扰字符:加入无意义的外语词汇或字符
部分翻译:将敏感词翻译成其他语言(如中文)
表达风格转换:使用俚语或方言重新表述
2.2 Scenario Nesting
场景嵌套技术
将重写后的提示嵌入到3种通用任务场景中:
代码补全 (Code Completion)
表格填充 (Table Filling)
文本续写 (Text Continuation)
2.3 Pipline
ReNeLLM 把一次完整的越狱流程抽象成“两步循环”:
Prompt Rewriting(提示重写)——用 6 种无梯度重写函数对原始恶意 prompt 做“整容”,保留语义但改头换面;
Scenario Nesting(场景嵌套)——把重写结果随机塞进“代码补全 / 故事续写 / 表格填充”三种通用任务模板,诱导目标 LLM 优先完成“任务”而忽略安全指令。
如果这一轮没成功,就回到第 1 步继续改写,直到触发有害输出或达到最大迭代次数。整个过程完全黑盒,无需模型梯度,也无需人工prompt。
三,实验结果
与其他红队攻击方法相比,ReNeLLM攻击成功率更强,攻击成功速度更快
注:
本博客参考论文为:Ding P, Kuang J, Ma D, Cao X, Xian Y, Chen J, Huang S. A Wolf in Sheep’s Clothing: Generalized Nested Jailbreak Prompts can Fool Large Language Models Easily[J]. arXiv, 2024. arXiv:2311.08268.
论文链接:https://arxiv.org/abs/2311.08268
GitHub:https://github.com/NJUNLP/ReNeLLM