当前位置: 首页 > news >正文

论文笔记 | Beyond Pick-and-Place: Tackling Robotic Stacking of Diverse Shapes

论文地址:Beyond Pick-and-Place: Tackling Robotic Stacking of Diverse Shapes

概述:本文提出 RGB-Stacking 基准测试,研究如何仅凭 RGB 摄像头视觉和本体感知,实现机器人对 复杂几何物体的高效堆叠。通过结合仿真专家训练、交互式模仿学习与现实世界离线强化学习,提出的系统成功实现了 从仿真到现实世界的零样本迁移,展现出优秀的泛化能力与鲁棒性。


🎯 背景与动机

尽管近年来机器人抓取与操作任务取得显著进展,但多数研究依然局限于单一抓取任务或立方体等规则物体的堆叠场景。

然而,现实世界物体的堆叠任务通常面临:

  • 不规则几何形状

  • 不稳定接触动力学

  • 多方向抓取与放置挑战

因此,本文旨在推动 从“拾取-放置”向“几何理解与策略堆叠”的迁移,设立更具挑战性的任务基准,并探索高效学习与迁移方法。


1️⃣ RGB-Stacking 基准测试设计

🧱 多样化物体集

  • 共 152 个 程序生成 + 3D 打印物体

  • 基于立方体的变形设计:

    • 4 种主变形轴:多边形、梯形、矩形、平行四边形

    • 组合变形物体用于训练集,主轴物体用于测试集

🧪 任务类型

  1. 技能掌握任务(Skill Mastery)

    • 给定 5 对固定物体组合

    • 需处理精细抓取、重心平衡、角度翻转等操作挑战

  2. 泛化任务(Generalization)

    • 从训练物体学习策略,迁移到测试集中的全新物体组合

✅ 成功判定标准

  • 红色物体堆叠于蓝色物体上

  • 水平误差 < 3cm垂直距离 > 2.5cm

  • 放置后夹爪完全打开


2️⃣ 方法总览:三阶段训练框架

阶段内容技术亮点
① 仿真训练专家策略在仿真中训练状态专家策略使用 MPO 强化学习算法;塑形奖励提升学习效率
② 视觉策略蒸馏蒸馏专家策略至视觉策略采用交互式模仿学习(IIL);域随机化提升迁移鲁棒性
③ 离线强化学习优化用现实数据进一步优化策略BC-IMP 与 CRR-IMP 算法,提升堆叠成功率

亮点细节:

  • 使用 Transformer 架构 表征视觉策略

  • 设置 二进制夹爪动作(抓/放)简化学习难度

  • 利用域随机化适应现实中变化的颜色、质感、光照等属性


3️⃣ 实验结果分析

💻 仿真实验

方法技能掌握任务泛化任务
人类遥操作46.6%-
脚本 Agent43.1%-
状态专家策略(MPO)79.3%68.8%
行为克隆(BC)52.4%-
交互模仿学习(IIL)74.2%-

✅ IIL 显著优于行为克隆:能通过交互纠正策略错误,学习更加稳健。

🤖 现实世界迁移

策略类型技能掌握任务泛化任务
零样本 IIL 策略67.9%51.9%
零样本 + 离线 RL(CRR-IMP)81.6%55.6%

🔍 关键影响因素:

  • 使用 二进制夹爪动作:迁移成功率提升 3 倍(20.7% → 67.9%)

  • Transformer 架构 显著增强泛化能力

  • 离线 RL 效果依赖于高质量数据(仿真迁移策略 > 脚本 Agent)


4️⃣ 关键发现与洞见

✅ 1. 仿真 → 现实零样本迁移是可行的

借助域随机化与 IIL,即使未在真实世界训练,策略依然能稳定迁移并完成任务。

✅ 2. 交互模仿学习优于纯行为克隆

引入 DAgger 风格的交互训练能及时纠正学生策略偏差,使视觉策略更强鲁棒性。

✅ 3. 离线 RL 可显著提升现实世界策略表现

CRR-IMP 能过滤低质量数据,通过优势函数重加权训练样本,有效提升成功率。

✅ 4. 设计细节影响巨大

  • 夹爪控制方式简化了策略学习

  • Transformer 提升了复杂几何场景中的理解与泛化能力


❓关键问题答疑

Q1:RGB-Stacking 有何创新?

  • 提供多样几何物体组合(152 个),覆盖真实场景复杂堆叠需求

  • 超过 5 万次现实评估,远超以往任务规模

  • 兼顾技能掌握与策略泛化两大挑战

Q2:为何能实现仿真到现实的零样本迁移?

  • 域随机化模拟多样现实视觉与物理属性

  • IIL 框架主动纠正错误,提升策略稳定性

  • 简化控制动作空间,降低迁移难度

Q3:离线强化学习为什么有效?

  • 基于仿真迁移策略收集的数据覆盖更多复杂策略

  • CRR-IMP 利用优势函数过滤低效策略,专注高价值行为


✍️ 总结

RGB-Stacking 基准和三阶段策略训练系统展示了机器人在复杂几何场景中实现高效、鲁棒、可泛化堆叠的可能性。该研究为“从仿真到现实”的策略迁移,以及融合视觉与交互式学习的方法,提供了清晰且有效的路径。这项工作不仅扩展了堆叠任务的研究范围,也为后续研究提供了 高难度评测平台与可复现的训练范式

http://www.lryc.cn/news/596689.html

相关文章:

  • 解决pip指令超时问题
  • 数据结构 堆(2)---堆的实现
  • LeetCode 热题100:42.接雨水
  • Unity UI的未来之路:从UGUI到UI Toolkit的架构演进与特性剖析(1)
  • 业务流逻辑如何搭建?为何橙武平台选用了 LogicFlow?​
  • day19 链表
  • 程序是如何生成的-以c语言为例
  • 信息学奥赛一本通 1553:【例 2】暗的连锁
  • 前端_CSS复习
  • 【React 入门系列】React 组件通讯与生命周期详解
  • 高可用架构模式——数据集群和数据分区
  • 单细胞转录组学+空间转录组的整合及思路
  • OneCode3.0 UI组件注解详解手册
  • 【vscode】vscode中python虚拟环境的创建
  • 回调地狱及解决方法
  • error C++17 or later compatible compiler is required to use ATen.
  • 【coze扣子】第1篇:coze快速入门
  • 威胁情报:Solana 开源机器人盗币分析
  • 以Java程序员角度理解MCP
  • 学习游戏制作记录(战斗系统简述以及击中效果)7.22
  • [c++11]std::function/bind
  • 基于SpringBoot+Vue的班级管理系统(Echarts图形化分析)
  • 101.对称二叉树
  • ubuntu 20.04 安装 cmake 3.26
  • VS Code 美化插件
  • 3ds Max 云端渲染插件 - 完整 Python 解决方案
  • Mysql-场景篇-2-线上高频访问的Mysql表,如何在线修改表结构影响最小?-1--Mysql8.0版本后的INSTANT DDL方案(推荐)
  • 基于mysql云数据库创建和美化表格,对比分析Power BI和Quick BI的功能优劣
  • 基于eBPF的Kubernetes网络故障自愈系统设计与实现
  • AI一周事件(2025年7月15日-7月21日)