当前位置: 首页 > news >正文

2023-03-09干活小计

强化学习:

强化学习用智能体(agent)这个概念来表示做决策的机器。

感知、决策和奖励                                                                                                                               

感知。智能体在某种程度上感知环境的状态,从而知道自己所处的现状。例如,下围棋的智能体感知当前的棋盘情况;无人车感知周围道路的车辆、行人和红绿灯等情况;机器狗通过摄像头感知面前的图像,通过脚底的力学传感器来感知地面的摩擦功率和倾斜度等情况。

智能体根据当前的状态计算出达到目标需要采取的动作的过程叫作决策。例如,针对当前的棋盘决定下一颗落子的位置;针对当前的路况,无人车计算出方向盘的角度和刹车、油门的力度;针对当前收集到的视觉和力觉信号,机器狗给出4条腿的齿轮的角速度。策略是智能体最终体现出的智能形式,是不同智能体之间的核心区别。

奖励。环境根据状态和智能体采取的动作,产生一个标量信号作为奖励反馈。这个标量信号衡量智能体这一轮动作的好坏。例如,围棋博弈是否胜利;无人车是否安全、平稳且快速地行驶;机器狗是否在前进而没有摔倒。最大化累积奖励期望是智能体提升策略的目标,也是衡量智能体策略好坏的关键指标

从以上分析可以看出,面向决策任务的强化学习和面向预测任务的有监督学习在形式上是有不少区别的。首先,决策任务往往涉及多轮交互,即序贯决策;而预测任务总是单轮的独立任务。如果决策也是单轮的,那么它可以转化为“判别最优动作”的预测任务。其次,因为决策任务是多轮的,智能体就需要在每轮做决策时考虑未来环境相应的改变,所以当前轮带来最大奖励反馈的动作,在长期来看并不一定是最优的。

                                                                                                                 

http://www.lryc.cn/news/37472.html

相关文章:

  • 基数排序算法
  • 项目实战典型案例24——xxljob控制台不打印日志排查
  • 旋转框目标检测mmrotate v1.0.0rc1 之RTMDet训练DOTA的官方问题解析整理(四)
  • 4个顶级的华为/小米/OPPO/Vivo手机屏幕解锁工具软件
  • 华为OD机试题 - 和最大子矩阵(JavaScript)| 机考必刷
  • 企业电子招标采购系统源码之项目说明和开发类型
  • Python高频面试题——装饰器(带大家理解装饰器的本质)
  • 全方位解读智能中控屏发展趋势!亚马逊Alexa语音+Matter能力成必备
  • JAVA练习74-括号生成
  • Java ORM开发 更全面的应用场景
  • SpringBoot【基础篇】---- 基础配置
  • 手机磁吸背夹散热器制冷快速方案
  • 青岛OJ(QingdaoU/OnlineJudge)部署如何直连数据库批量修改
  • 渗透测试——信息收集(详细)
  • 什么是谐波
  • 技术报告:程序员如何开发一个商城型购物网站
  • DPDK系列之八虚拟化virtio
  • 直播间与2位优秀创作者分享经历
  • linux上快速安装 Flarum 指南
  • 数学不好,英语不行,非本专业,可以学IT吗?
  • 软件测试13
  • React(八):引出Hook、useState、useEffect的使用详解
  • 32*4VKL128 LQFP44超低功耗/超低工作电流/抗干扰LCD液晶段码驱动IC/LCD驱动芯片(IC) 适用于激光/红外线测距仪
  • 自定义控件(?/N) - 事件分发
  • 诗一样的代码命名规范
  • L1-010 比较大小 L1-030 一帮一 L1-015 跟奥巴马一起画方块 L1-035 情人节
  • 打怪升级之如何发送HEX进制的数据出去
  • 国产8K摄像机拍摄回顾与画面数据反馈
  • C++中拷贝构造和赋值重载的注意事项以及编译器的优化处理
  • Java设计模式_单例模式