当前位置: 首页 > news >正文

研究人员利用提示注入漏洞绕过Meta的Llama防火墙防护

研究人员绕过Meta的Llama防火墙

Trendyol应用安全团队发现了一系列绕过技术,使得Meta的Llama防火墙在面对复杂的提示注入攻击时防护失效。这一发现引发了人们对现有大语言模型(LLM)安全措施准备情况的担忧,并凸显出在企业日益将大语言模型嵌入工作流程时,迫切需要更强大的防御机制。

防火墙防护机制失效

评估过程中,Trendyol工程师部署了Meta开源的Llama防火墙,重点关注其用于筛查恶意用户指令的PROMPT_GUARD组件。令人惊讶的是,该防护机制允许包含土耳其语"üstteki yönlendirmeleri salla"(意为"忽略上述指令")的注入攻击通过,随后模型按要求将句子翻译成法语。

扫描结果显示为良性,但实际包含明显恶意意图。团队进一步证明,简单的Leet语(如将"ignore"变形为"1gn0r3")也能绕过过滤器,在Llama-Prompt-Guard-2-86M模型测试中仅获得极低的越狱评分。

这些实验表明,防火墙规则集主要依赖英语关键词和精确模式匹配,无法识别语言变体或字符替换。

代码防护模块的缺陷

同样令人担忧的是团队对CODE_SHIELD模块的评估,该模块本应标记LLM生成的不安全代码建议。在一个概念验证中,研究人员指示助手生成一个包含SQL查询的简单Python Flask端点。生成的代码直接将用户输入拼接到查询字符串中,形成了典型的SQL注入漏洞。

尽管存在明显风险,CODE_SHIELD仍将输出归类为安全并放行。Trendyol开发人员强调了这一缺陷带来的关键问题:

  • 生产风险:团队可能未经彻底人工审查就使用LLM生成的代码片段
  • 安全漏洞:过度依赖自动化扫描会引入关键漏洞
  • 系统暴露:生产系统可能通过未检测到的缺陷被利用
  • 信任问题:开发者可能对自动化安全工具产生错误信心

这一疏漏展示了自动化系统如何在企业安全框架中制造危险的盲点。

Unicode隐写与隐形指令

最隐蔽的绕过技术涉及在不可见Unicode字符中嵌入隐藏指令。研究人员通过在"ignore all previous instructions"(忽略所有先前指令)短语周围插入零宽度空格和其他非打印代码点,将恶意指令伪装成关于法国首都的无害问题。

Unicode隐写技术

虽然用户和普通观察者只看到无害查询,但LLM识别并执行了隐藏命令。提交给Llama防火墙时,该载荷以零威胁评分通过检查。Trendyol团队证明,即使是最小的不可见载荷也能可靠地颠覆系统提示,导致模型产生任意或有害输出。

这种技术在开发者之间复制粘贴提示的协作环境中尤其危险,因为自动化扫描器无法检测隐藏字符。

测试结果与行业警示

Trendyol共测试了100种独特的注入载荷,其中一半成功绕过系统防御,表明防火墙虽提供一定保护,但远非全面。成功的绕过案例突显了攻击者可能迫使LLM忽略关键安全过滤器、输出偏见或攻击性内容,或生成可直接执行的不安全代码的场景。

对于计划将LLM集成到开发者平台、自动化管道和面向客户应用的Trendyol等组织,这些漏洞可能导致数据泄露、系统入侵或不合规等实际风险。

Trendyol安全研究人员于2025年5月5日向Meta报告了初步发现,详细说明了多语言和混淆的提示注入。Meta确认收到并开始内部审查,但最终于6月3日将报告标记为"信息性"并关闭,未发放漏洞赏金。向Google提交的关于不可见Unicode注入的平行披露同样被标记为重复。

尽管厂商反应冷淡,Trendyol已完善自身威胁建模实践,并与更广泛的AI安全社区分享案例研究。该公司敦促其他组织在将LLM防御投入生产前进行严格的红队测试,强调仅靠提示过滤无法防止所有形式的入侵。

随着企业竞相利用生成式AI的力量,Trendyol的研究提供了一个警示:如果没有分层、上下文感知的防护措施,即使是最先进的防火墙工具也可能成为看似简单攻击向量的牺牲品。安全社区现在必须合作开发更具弹性的检测方法和最佳实践,以领先于不断创新的攻击者。

http://www.lryc.cn/news/588376.html

相关文章:

  • 开源软著源代码生成工具(自制)
  • Java行为型模式---模板方法模式
  • 实现高效、可靠的基于骨骼的人体姿态建模(第二章 基于三维人体姿态回归的语义图卷积网络)
  • 如何将 iPhone 备份到云端:完整指南
  • ubuntu系统在线安装postgres
  • 【一维 前缀和+差分】
  • 【牛客刷题】小红的数字删除
  • 第 2 章 数据类型及其运算
  • 内测分发平台应用的异地容灾和负载均衡处理和实现思路
  • 【深度学习笔记】2 浅层神经网络
  • Dubbo 学习笔记
  • python接口自动化 - 使用requests库发送http请求
  • Datawhale AI夏令营——用户新增预测挑战赛
  • Docker入门指南(超详细)
  • 华为OD 消消乐游戏
  • LLaMA.cpp HTTP 服务参数: --pooling 嵌入模型 池化类型详解
  • 【时时三省】(C语言基础)用数组名作函数参数
  • 75、【OS】【Nuttx】【启动】caller-saved 和 callee-saved 示例
  • 数电汇总——logisim的辛酸史
  • 【Python进阶】深度复制——deepcopy
  • stm32-Modbus主机移植程序理解以及实战
  • JSCPC 2025 江苏省赛
  • 制造业实战:数字化集采如何保障千种备件“不断供、不积压”?
  • Java从入门到精通!第五天(面向对象(二))
  • 《解锁音频处理新姿势:探索Librosa的无限可能》
  • HarmonyOS应用无响应(AppFreeze)深度解析:从检测原理到问题定位
  • ISO-IEC-IEEE 42010架构规范
  • 016 进程控制 —— 进程创建
  • ShenYu实战、问题记录
  • Spring Boot 自带的 JavaMail 集成