当前位置: 首页 > news >正文

论文学习 --- RL Regret-based Defense in Adversarial Reinforcement Learning

前言

个人拙见,如果我的理解有问题欢迎讨论 (●′ω`●)
原文链接:https://www.ifaamas.org/Proceedings/aamas2024/pdfs/p2633.pdf

研究背景

深度强化学习(Deep Reinforcement Learning, DRL)在复杂和安全关键任务中取得了显著成果,例如自动驾驶。然而,DRL策略容易受到观测噪声的干扰,这在安全关键环境中可能导致灾难性后果。例如,自动驾驶汽车在接收到对交通标志的对抗性扰动时(如一个被物理改变的停车标志被感知为限速标志)可能会导致严重的交通事故。

研究意义

目前已有的方法主要集中在通过正则化方法和“maximin”方法来提高DRL算法对观测扰动的鲁棒性。然而,正则化方法虽然可以减少攻击成功的概率,但一旦攻击成功,性能下降显著。而“maximin”方法虽然鲁棒性强,但过于保守。因此,本文研究了一种新的鲁棒性目标——遗憾(Regret),通过优化遗憾来在保证鲁棒性的同时不过于保守。

保守指的是在面临可能需要探索的场合时,智能体可能会偏向去执行奖励更大而不是结果更优的动作


摘要

本文提出了一种基于遗憾优化的方法来增强对抗性强化学习中的鲁棒性。我们定义并近似优化了一种新的遗憾度量,命名为累积矛盾期望遗憾(Cumulative Contradictory Expected Regret, CCER),并提出了三种优化方法:

RAD-DRN(基于深度遗憾网络的对抗防御)
RAD-PPO(基于近端策略优化的对抗防御)
RAD-CHT(基于认知层级理论的对抗防御)

实验结果表明,这些方法在多个标准基准测试中均优于现有的最佳方法。


具体细节

对抗策略的训练

文章中提出了一个假设,带有了干扰的观测状态Z和真实状态S之间一定存在一个双射的函数,即一个Z一定只会对应一个S,通过这种方式,当干扰出现时,智能体能够利用这种映射关系,将当前的Z映射到S空间,这样的话就不会出现下面的情况:

在机械臂的抓取过程中,如果目标是红色方块,干扰是粉色方块,当遇到粉色干扰时,机械臂能够自行根据相应的算法,做出不同的动作来规避误抓取,这在下面会展开讨论

遗憾的定义

在对抗性强化学习中,遗憾被定义为在没有对抗干扰和存在对抗干扰的情况下,代理获得的期望值之差。具体来说,给定一个对抗性策略

http://www.lryc.cn/news/384936.html

相关文章:

  • 【Linux小命令】一文讲清ldd命令及使用场景
  • 自费5K,测评安德迈、小米、希喂三款宠物空气净化器谁才是高性价比之王
  • 1373. 二叉搜索子树的最大键值和
  • 基于java + Springboot 的二手物品交易平台实现
  • Shopee本土店选品有什么技巧?EasyBoss ERP为你整理了6个高效选品的方法!
  • 3D在线展览馆的独特魅力,技术如何重塑展览业的未来?
  • 基于SpringBoot的藏区特产销售平台
  • hudi系列-schema evolution(一)
  • Redis-实战篇-缓存雪崩
  • 线性代数|机器学习-P18快速下降奇异值
  • 本地离线模型搭建指南-中文大语言模型底座选择依据
  • 【代码随想录】【算法训练营】【第51天】 [115]不同的子序列 [583]两个字符串的删除操作 [72]编辑距离
  • 24下半年软考集合!30s打破信息差!
  • 如何在Xcode中设置库路径
  • 小程序的基本使用
  • [保姆级教程]uniapp设置字体引入字体格式
  • 【Webpack】前端工程化之Webpack与模块化开发
  • 【Android】记录在自己的AMD处理器无法使用Android studio 虚拟机处理过程
  • LearnOpenGL - Android OpenGL ES 3.0 使用 FBO 进行离屏渲染
  • 人工智能虚拟仿真系统,解决算法难、编程难、应用场景难三大难题
  • CTE(公共表表达式)和视图在查询时的性能影响
  • 新能源行业必会基础知识-----电力市场概论笔记-----绪论
  • 003 SpringBoot操作ElasticSearch7.x
  • npm install报错Maximum call stack size exceeded
  • 第1章 基础知识
  • python脚本 限制 外部访问 linux服务器端口
  • Redis-哨兵模式-主机宕机-推选新主机的过程
  • 游戏工厂:AI(AIGC/ChatGPT)与流程式游戏开发
  • 每日一练 - OSPF 组播地址
  • AMHS工程师的培养