当前位置: 首页 > news >正文

【AI大模型】披着羊皮的狼--自动化生成越狱提示的系统(ReNeLLM)

南京大学 & 美团联合团队发表了一篇 NAACL 2024 论文《A Wolf in Sheep’s Clothing: Generalized Nested Jailbreak Prompts can Fool Large Language Models Easily》(披着羊皮的狼)。非常有意思的名字,他们提出了一套名叫 ReNeLLM 的自动化框架,让 ChatGPT、GPT-4、Claude-2、Llama2 等主流大模型集体失守。

一.研究背景与意义

随着 ChatGPT、GPT-4、Claude-2、Llama2-chat 等安全对齐(Safety-Alignment)大模型的规模化部署,其抵御恶意指令的能力成为产业落地的关键瓶颈。现有越狱(Jailbreak)方法可分为:
人工模板型(如 DAN),白盒优化型(如 GCG、AutoDAN)
当前越狱方法深陷“两重桎梏”:一端是纯手工雕琢的提示词——它们往往由安全研究员或社区极客凭经验反复试错而成,每一次模型升级或策略更新都意味着整套模板需推倒重来,迭代周期以周计、以月计,迅速失效;另一端则是基于梯度优化的对抗后缀搜索,这类方法虽然自动化程度高,却必须拿到目标模型的完整白盒权限,在替代模型上展开高维离散优化,动辄数千次前向-反向传播,GPU 小时数直线上升,而所得后缀通常是无意义的乱码或特殊标记,跨模型迁移后性能断崖式下跌,计算代价与实用价值严重失衡。

二:ReNeLLM 方法框架

ReNeLLM 框架的核心创新在于将越狱攻击系统性地抽象为两个维度:
1.提示重写 (Prompt Rewriting)
2.场景嵌套 (Scenario Nesting)
在这里插入图片描述

2.1 Prompt Rewriting

提示重写技术设计了6种重写函数来掩盖恶意意图:
压缩改写:将提示压缩到6个词以内
句式重构:改变词序但保持语义不变
敏感词拼错:故意拼错关键敏感词汇
插入干扰字符:加入无意义的外语词汇或字符
部分翻译:将敏感词翻译成其他语言(如中文)
表达风格转换:使用俚语或方言重新表述

在这里插入图片描述

2.2 Scenario Nesting

场景嵌套技术
将重写后的提示嵌入到3种通用任务场景中:
代码补全 (Code Completion)
表格填充 (Table Filling)
文本续写 (Text Continuation)

在这里插入图片描述

2.3 Pipline

ReNeLLM 把一次完整的越狱流程抽象成“两步循环”:
Prompt Rewriting(提示重写)——用 6 种无梯度重写函数对原始恶意 prompt 做“整容”,保留语义但改头换面;
Scenario Nesting(场景嵌套)——把重写结果随机塞进“代码补全 / 故事续写 / 表格填充”三种通用任务模板,诱导目标 LLM 优先完成“任务”而忽略安全指令。

如果这一轮没成功,就回到第 1 步继续改写,直到触发有害输出或达到最大迭代次数。整个过程完全黑盒,无需模型梯度,也无需人工prompt。
在这里插入图片描述

三,实验结果

与其他红队攻击方法相比,ReNeLLM攻击成功率更强,攻击成功速度更快
在这里插入图片描述

注:
本博客参考论文为:Ding P, Kuang J, Ma D, Cao X, Xian Y, Chen J, Huang S. A Wolf in Sheep’s Clothing: Generalized Nested Jailbreak Prompts can Fool Large Language Models Easily[J]. arXiv, 2024. arXiv:2311.08268.
论文链接:https://arxiv.org/abs/2311.08268
GitHub:https://github.com/NJUNLP/ReNeLLM

http://www.lryc.cn/news/605864.html

相关文章:

  • 无人机传感器系统架构解析
  • 客户服务自动化:如何用CRM减少50%人工工单?
  • HOOPS Exchange技术架构全解析:打造高效CAD/BIM数据导入与导出引擎
  • AR智能巡检:制造业运维效率提升的关键
  • AR-Align-NN-2024
  • 11.结构体
  • 项目中如何定义项目范围
  • Python:如何从地球大数据科学服务中心批量下载VPM-GPP?
  • 《Java 程序设计》第 17 章 - 并发编程基础
  • Ceph、K8s、CSI、PVC、PV 深入详解
  • ros2 tf2详解
  • 从 0 到 1:PHP 基础到就业教程指南(附教程资料)
  • ceph sc 设置文件系统格式化参数
  • Python 程序设计讲义(48):组合数据类型——字典类型:字典的常用操作
  • 商旅平台怎么选?如何规避商旅流程中的违规风险?
  • 云原生技术创新中的安全和合规问题有哪些解决方案?
  • Java客户端连接Redis
  • 《计算机“十万个为什么”》之 [特殊字符] 字符集:数字世界的文字密码本 [特殊字符]️
  • OpenCV 中的「通道」(Channel)详解
  • Windows 安全中心是什么?如何关闭 Windows 11 的安全中心
  • centos下安装anaconda
  • Traccar:开源GPS追踪系统的核心价值与技术全景
  • VuePress 使用详解
  • 【Coze Studio代码分析】开源多智能体应用开发平台原理与实践
  • 技术分享 | 悬镜亮相于“2025开放原子开源生态大会软件物料清单(SBOM)”分论坛
  • 「源力觉醒 创作者计划」开源大模型重构数智文明新范式
  • 前端 vue 第三方工具包详解-小白版
  • 「源力觉醒 创作者计划」破局与重构:文心大模型开源的产业变革密码
  • 前端开发(HTML,CSS,VUE,JS)从入门到精通!第一天(HTML5)
  • [论文阅读] 人工智能 + 软件工程 | KnowledgeMind:基于MCTS的微服务故障定位新方案——告别LLM幻觉,提升根因分析准确率