当前位置: 首页 > news >正文

[论文阅读]Constrained Decision Transformer for Offline Safe Reinforcement Learning

Constrained Decision Transformer for Offline Safe Reinforcement Learning

Proceedings of the 40th International Conference on Machine Learning (ICML), July 23-29, 2023

https://arxiv.org/abs/2302.07351

泛读只需要了解其核心思想即可。

安全强化学习(Safe Reinforcement Learning,Safe RL)通过与环境进行交互来训练满足约束条件的策略。我们旨在解决一个更具挑战性的问题:  从离线数据集中学习安全策略。我们从一个新的多目标优化的角度去研究离线安全强化学习这个问题,并提出了 ε-reducible(翻译为差值可约性)的概念来表征问题的难度。安全性和任务性能之间的内在权衡启发我们提出了约束决策  Transformer(Constrained Decision Transformer,CDT)方法,该方法可以在部署期间动态调整这些权衡。大量实验表明了该方法在学习自适应、安全、鲁棒性和高奖励的策略方面所具有的优势。在相同的超参数条件下,CDT 在所有任务中均大幅超越了其变体和强大的离线安全强化学习基线,同时保持了对不同的约束阈值的零样本(zero-shot)自适应能力,使得我们的方法更适合于有约束的现实  世界强化学习。

贡献:

  1. 我们从一个新的多目标优化(MOO)的视角研究了多于单个预定义约束阈值的离线安全强化学习问题。这些见解揭示了现有的离线安全强化学习训练模式的局限性,并激发我们通过利用 Transformer 的回报条件序列建模能力来提出  CDT 这个方法。
  2. 我们在 CDT 中提出了三项关键技术,这些技术对于学习自适应和安全的策略来说是至关重要的。据我们所知,CDT 是第一个成功的离线安全强化学习方法,能够实现在训练后对不同安全要求的零样本自适应,而且无需解决约束优化问题。
  3. 大量实验表明,CDT 在安全性和任务性能方面均远远优于基线方法及其变体。CDT 能够在不重新训练策略的情况下适应不同的代价阈值,而所有以前的方法都做不到这一点。

安全强化学习的目标是找到一个策略,使其在最大化奖励回报的同时,将由于违反约束而产生的代价回报控制在阈值 K 之内(安全+奖励机制的强化学习)

离线安全强化学习:从预先收集的静态数据集中以离线的方式去学习满足安全约束且能够最大化奖励的策略,本质上来说就是将安全约束条件集成到离线强化学习中。现有的离线安全强化学习方法通常要求在训练前设置一个固定的约束阈值,使得训练后的智能体必须重新进行训练才能适应其他约束条件

动机与目标

 

 

http://www.lryc.cn/news/470955.html

相关文章:

  • 工具_Nginx
  • web开发Model1
  • ImportError: cannot import name ‘Sequential‘ from ‘keras.models‘
  • python实战(二)——房屋价格回归建模
  • UHF机械高频头的知识和待学习的疑问
  • 深入理解 SQL 中的 WITH AS 语法
  • 同三维T80005JEHA-4K60 4K60超高清HDMI/AV解码器
  • 深信服秋季新品重磅发布:安全GPT4.0数据安全大模型与分布式存储EDS新版本520,助力数字化更简单、更安全
  • Flutter图片控件(七)
  • JavaEE初阶---文件IO总结
  • 10.28Python_pandas_csv
  • 数据处理与可视化:pandas 和 matplotlib 初体验(9/10)
  • 鸿蒙学习总结
  • 如何修改文件创建时间?六个超简单修改方法介绍
  • 【MySQL 保姆级教学】内置函数(9)
  • 华为大咖说丨如何通过反馈机制来不断优化大模型应用?
  • 上海亚商投顾:沪指缩量震荡 风电、传媒股集体走强
  • 三磺酸-Cy3.5-羧酸在水相环境中表现良好,能够提高成像的清晰度和准确性
  • 国标GB28181视频平台EasyGBS国标GB28181软件实现无需插件的视频监控对讲和网页直播
  • mac nwjs程序签名公证(其他mac程序也一样适用)
  • 网络应用技术 实验一:路由器实现不同网络间通信(华为ensp)
  • 使用 Qt GRPC 构建高效的 Trojan-Go 客户端:详细指南
  • 【mysql进阶】5-事务和锁
  • 指增和中性产品的申赎加减仓及资金调拨自动化伪代码思路
  • 【论文分享】居住开放空间如何影响老年人的情感:使用可穿戴传感器的现场实验
  • 入门 | Prometheus+Grafana 普罗米修斯
  • 制作Ubuntu根文件系统
  • 16个最佳测试管理工具(2024)
  • 基于知识图谱的猕猴桃种植技术问答系统
  • Swift雨燕蜂窝无线通信系统介绍