当前位置: 首页 > news >正文

Diffusino Policy学习note

Diffusion Policy—基于扩散模型的机器人动作生成策略 - 知乎

建议看看,感觉普通实验室复现不了这种工作。复现了也没有太大扩展的意义。


Diffusion Policy 是监督学习吗

Diffusion Policy 通常被视为一种基于监督学习的方法,但它的实际训练过程可能结合一些生成式模型的特点,因此更准确的说法是,它是一种 基于生成式建模的监督学习方法。以下是对其性质的分析:


1. 监督学习的特点

  • 需要标注数据: Diffusion Policy 的训练通常依赖于专家演示的数据(Expert Demonstrations),这些数据包含环境状态(State)和对应的专家动作(Action)。模型学习状态到动作的映射。
  • 目标函数: 通过最小化生成的动作分布与专家动作分布之间的差异,Diffusion Policy 实现了动作生成策略的学习。这类似于监督学习中的回归任务。

2. 与生成模型的结合

Diffusion Policy 的核心是基于 扩散模型(Diffusion Model),其本质是通过逐步添加噪声并反向生成干净数据的方式建模复杂的分布。
具体体现:

  • 建模动作分布: Diffusion Policy 不仅学习单一的动作映射,还通过扩散过程建模高维复杂动作分布,从而能够生成多样性和鲁棒性更强的策略。
  • 从噪声到动作生成: 在推理阶段,Diffusion Policy 从噪声开始逐步采样,最终生成动作。这样的过程在传统监督学习中并不常见,但在生成模型中很常见。

3. 对比强化学习

  • 不是强化学习: Diffusion Policy 并不直接依赖奖励信号(Reward)进行优化,而是依赖于专家示范数据的监督,因此它与强化学习(特别是无模型强化学习)的方法不同。
  • 没有环境交互: 传统的强化学习需要通过与环境交互进行策略优化,而 Diffusion Policy 的训练过程主要是离线的,依赖于现有的专家数据。

4. 是否完全是监督学习

尽管它借用了监督学习的框架,但由于采用了扩散模型进行复杂分布的生成,Diffusion Policy 不完全符合传统监督学习的定义。这种方法更接近以下几类方法的交集:

  • 行为克隆 (Behavior Cloning): 使用监督学习直接模仿专家行为。
  • 生成式建模 (Generative Modeling): 使用扩散模型生成动作分布。
  • 离线强化学习 (Offline Reinforcement Learning): 在某些变体中,可能加入类似离线RL的思想,利用环境数据进一步优化策略。

总结

Diffusion Policy 可以被视为一种以监督学习为基础的方法,但它结合了生成式模型的特点。严格来说,它是 基于生成建模的监督学习方法,通常用于行为克隆或策略生成任务。它不依赖强化学习的奖励信号,而是通过学习专家数据分布生成动作策略。


 输出的东西 格式一般是啥样的请具象化

总结

Diffusion Policy 的输出格式可以是 单步动作动作序列概率分布,或根据任务需求设计的多模态和复合输出。它的输出灵活多样,能适配从低层次控制到高层次规划的不同任务。

http://www.lryc.cn/news/506650.html

相关文章:

  • 【Python】*args和**kwargs
  • 使用正则表达式提取PDF文件页数的实现方案
  • Android实现RecyclerView边缘渐变效果
  • springboot443旅游管理系统(论文+源码)_kaic
  • 利用git上传项目到GitHub
  • Rust之抽空学习系列(四)—— 编程通用概念(下)
  • K-Means 聚类:数据挖掘的瑞士军刀
  • 项目练习:若依-前端项目的目录结构介绍
  • 知网研学 | 知网文献(CAJ+PDF)批量下载
  • 设计模式期末复习
  • CentOS7源码编译安装nginx+php+mysql
  • linux CentOS系统上卸载docker
  • css中相对定位的应用场景
  • Android 获取屏幕物理尺寸
  • C缺陷与陷阱 — 8 编译与链接
  • 知识分享第三十天-力扣343.(整数拆分)
  • Springboot 整合DL4J 打造智能写作助手(文本生成)
  • SPL06 基于stm32F103 HAL库驱动(软件模拟IIC)
  • 【C#】List求并集、交集、差集
  • YOLOv8目标检测——详细记录使用ONNX Runtime进行推理部署C++/Python实现
  • mfc140u.dll是什么文件?如何解决mfc140u.dll丢失的相关问题
  • Redis篇-19--运维篇1-主从复制(主从复制,读写分离,配置实现,实战案例)
  • 【Elasticsearch入门到落地】4、Elasticsearch的安装
  • 计算无人机俯拍图像的地面采样距离(GSD)矩阵
  • 牛客网 SQL37查找多列排序
  • el-tabs标签过多
  • 如何制作搞笑配音视频?操作方法
  • [Unity]Unity跨平台开发之针对Android开发
  • ELK部署
  • ELK系列-(四)轻量级的日志收集助手-Beat家族