当前位置: 首页 > news >正文

HQA-Attack: Toward High Quality Black-Box Hard-Label Adversarial Attack on Text

文本对抗性攻击分为白盒攻击和黑盒攻击,其中黑盒攻击更贴近现实,又可分为软标签和硬标签设置,。这些名词分别是什么意思

在文本对抗性攻击中,“白盒攻击”“黑盒攻击”以及黑盒攻击下的“软标签”“硬标签”设置,核心差异在于攻击者对模型信息的掌握程度以及模型输出的信息粒度。以下是具体解释:

一、白盒攻击(White-box Attack)

白盒攻击是指攻击者完全掌握模型的内部信息的攻击方式。

  • 核心特征:攻击者知晓模型的全部细节,包括模型结构(如是否是BERT、LSTM等)、参数权重、训练数据分布、损失函数、激活函数等。
  • 攻击逻辑:由于掌握完整信息,攻击者可直接利用模型的内部机制(如梯度信息)设计攻击策略。例如,通过计算模型对输入文本的梯度,定位到对模型预测影响最大的词语,再针对性地替换为同义词或近义词,生成对抗样本。
  • 文本领域示例:已知目标模型是基于LSTM的情感分类器,且知道其各层权重,攻击者可通过梯度反向传播,找到“最敏感”的词语(如“精彩”),替换为语义相近但会改变模型预测的词(如“还行”),使模型将“正面”误判为“负面”。

二、黑盒攻击(Black-box Attack)

黑盒攻击是指攻击者对模型内部信息完全未知的攻击方式,仅能通过“输入文本→观察输出结果”的交互来推测模型行为。

  • 核心特征:攻击者不知道模型的结构、参数、训练数据等任何内部细节,仅能将模型视为一个“黑盒”,通过不断输入不同文本,观察输出结果来优化攻击策略。
  • 现实意义:更贴近实际场景(如调用第三方文本分类API、使用闭源模型),因为实际应用中模型通常是保密的,攻击者无法获取内部信息。
  • 文本领域示例:调用一个未知的垃圾邮件检测API,攻击者只能通过发送不同邮件(如替换部分词语、调整句式),观察返回的“垃圾邮件”或“正常邮件”结果,逐步找到能绕过检测的对抗样本。

三、黑盒攻击中的“软标签”与“硬标签”设置

在黑盒攻击中,模型输出的信息粒度不同,可分为“软标签”和“硬标签”两种场景,直接影响攻击难度和策略设计。

1. 软标签(Soft Labels)

软标签指模型输出的是“概率分布”形式的结果,即对每个可能的类别都给出对应的概率值。

  • 信息价值:能为攻击者提供更丰富的参考——不仅知道模型的预测类别,还能知道模型对该类别的“置信度”,以及对其他类别的“倾向性”。
  • 攻击优势:攻击者可通过观察概率变化,更精准地调整扰动策略。例如,若模型对“正面”的概率是60%,对“负面”是40%,攻击者可针对性地修改文本,逐步降低“正面”概率、提高“负面”概率,直到模型误判。
  • 文本示例:输入“这部电影剧情紧凑,演员演技出色”,模型输出“正面:85%;负面:15%”。
2. 硬标签(Hard Labels)

硬标签指模型仅输出最终的“预测类别”,不提供任何概率或置信度信息。

  • 信息局限:攻击者仅能知道“模型认为这是哪一类”,但无法判断模型对该预测的“坚定程度”,也不知道其他类别的可能性。
  • 攻击挑战:攻击难度更高,因为缺乏中间反馈。攻击者需通过大量尝试(如随机替换词语),观察预测类别是否变化,效率较低。
  • 文本示例:输入“这部电影剧情紧凑,演员演技出色”,模型仅输出“正面”(无概率)。

总结

  • 白盒攻击 vs 黑盒攻击:核心差异是“是否掌握模型内部信息”,黑盒更贴近现实。
  • 软标签 vs 硬标签(黑盒下):核心差异是“模型输出的信息粒度”,软标签提供概率分布(信息更丰富),硬标签仅提供预测类别(信息更有限)。

这些分类本质上反映了“攻击者与模型的信息差”,而信息差直接决定了对抗性攻击的策略设计与难度。

guide

首先通过随机初始化生成初始对抗性样本;然后尽可能替换回原始词,以降低扰动率;最后利用剩余替换词的同义词集优化对抗性样本,同时通过为每个替换词搜索过渡同义词,避免遍历整个同义词集,减少查询次数

是的,你对HQA-Attack的核心流程概括得很准确,其步骤的逻辑链条可以总结为:

  1. 随机初始化:从原始文本中选取名词、动词等可替换词,随机替换为其同义词,生成初始对抗样本(需满足对抗条件,即模型预测错误)。
  2. 替换回原始词:动态尝试将替换词换回原始词,仅保留“换回后仍保持对抗性且提升语义相似度”的操作,以此减少扰动率🔶1-58🔶1-60🔶。
  3. 计算优化顺序:基于替换词与原始词的语义差异(余弦距离)确定抽样概率,优先优化那些与原始词语义更接近的替换词,保证优化效率🔶1-68🔶1-69🔶。
  4. 过渡词筛选:针对待优化的替换词,从其同义词集中随机选取少量候选词,筛选出既能保持对抗性又提升语义相似度的过渡词,避免全量遍历同义词集🔶1-72🔶1-74🔶。
  5. 估算优化方向u:围绕过渡词的同义词集,通过语义相似度差异的加权计算,得到指向“提升语义相似度”的更新方向u🔶1-86🔶。
  6. 定向优化:沿方向u从原始词的同义词集中选取最优替换词,确保新样本既满足对抗条件,又进一步提升语义相似度🔶1-88🔶。

整个流程通过“初始化-减扰-定向优化”的迭代,在有限查询预算内生成高语义相似度、低扰动率的对抗样本,各步骤紧密衔接,共同服务于“高质量攻击”的目标。

http://www.lryc.cn/news/621338.html

相关文章:

  • CoreShop商城框架开启多租户(3)
  • PyTorch 2025全解析:从基础到前沿,深度学习框架的技术演进与实战指南
  • ESP32入门开发·通用硬件定时器 (GPTimer)
  • C# 高并发处理方式
  • 算法题Day1
  • torchvision中数据集的使用与DataLoader 小土堆pytorch记录
  • # Vue 列表渲染详解
  • VLMs开发——基于Qwen2.5-VL 实现视觉语言模型在目标检测中的层级结构与实现方法
  • RxJava Android 创建操作符实战:从数据源到Observable
  • 中久数创——笔试题
  • PiscTrace基于YOLO追踪算法的物体速度检测系统详解
  • 2025.8.24复习总结
  • React.memo、useMemo 和 React.PureComponent的区别
  • 基于场景的无人驾驶叉车分类研究:应用场景与技术选型分析
  • springboot myabtis返回list对象集合,对象的一个属性为List对象
  • 飞算 JavaAI 真是 yyds
  • 一周学会Matplotlib3 Python 数据可视化-绘制面积图(Area)
  • [C++] Git 使用教程(从入门到常用操作)
  • TDengine IDMP 基本功能(6. 无问智推)
  • TDengine IDMP 基本功能(7. 智能问数)
  • C++11新特性深度解析
  • 【CF】Day127——杂题 (数论 gcd | 数论 gcd | 博弈论 | 二分图判断 | 贪心 + 暴力 / 二分答案 | 数论 gcd + 动态规划)
  • OSG+Qt —— 笔记1 - Qt窗口加载模型(附源码)
  • Mybatis 源码解读-SqlSession 会话源码和Executor SQL操作执行器源码
  • 《Python函数:从入门到精通,一文掌握函数编程精髓》
  • Transformer网络结构解析
  • 《嵌入式 C 语言编码规范与工程实践个人笔记》参考华为C语言规范标准
  • CNN - 卷积层
  • GaussDB数据库架构师修炼(十六) 如何选择磁盘
  • 《算法导论》第 24 章 - 单源最短路径