当前位置: 首页 > news >正文

逆强化学习

1.逆强化学习的理论框架

1.teacher的行为被定义成best

2.学习的网络有两个,actor和reward

3.每次迭代中通过比较actor与teacher的行为来更新reward function,基于新的reward function来更新actor使得actor获得的reward最大。

loss的设计相当于一个排序问题,实际中多使用最大熵loss:

-log(sigmoid(P_label - P_actor))

IRL与GAN在原理上相似,actor对应generator,reward function对应 discriminator,真实图片对应专家数据。

http://www.lryc.cn/news/182265.html

相关文章:

  • postgresql新特性之Merge
  • 【注解】注解解析与应用场景
  • mysql面试题14:讲一讲MySQL中什么是全同步复制?底层实现?
  • Linux驱动设备号分配与自动创建设备节点
  • 基于MFC和OpenCV实现人脸识别
  • 力扣 -- 377. 组合总和 Ⅳ
  • 阿里云新账户什么意思?老用户、产品首购详细说明
  • C++ YAML使用
  • 十二、Django之模板的继承+用户列表
  • wzsc_文件上传(条件竞争)
  • unplugin-vue-components和unplugin-auto-import插件
  • docker系列文章目录
  • 第80步 时间序列建模实战:GRNN回归建模
  • 《C和指针》笔记33:指针数组
  • C/C++字符函数和字符串函数详解————内存函数详解与模拟
  • CAcUiDockControlBar初始位置 2023/8/19 下午3:51:18
  • CDH6.3.2 的pyspark读取excel表格数据写入hive中的问题汇总
  • 2120 -- 预警系统题解
  • C++入门-day01
  • Android开源 Skeleton 骨架屏 V1.3.0
  • 网络资料搬运(2)
  • SEO搜索引擎
  • 动态规划-状态机(188. 买卖股票的最佳时机 IV)
  • 银行业务队列简单模拟(队列应用)
  • 2023/8/8 下午10:42:04 objectarx
  • Day-06 基于 Docker安装 Nginx 镜像
  • linux入门---信号的保存和捕捉
  • 5.外部中断
  • Mydb数据库问题
  • 部署并应用ByteTrack实现目标跟踪