当前位置: 首页 > news >正文

基于模拟的流程为灵巧机器人定制训练数据

当ChatGPT或Gemini针对你迫切想知道的问题给出看似专业的回答时,你可能没有意识到它给出该回答依赖了多少信息。与其他流行的人工智能(AI)模型一样,这些聊天机器人依赖于被称为基础模型的骨干系统,这些系统基于数十亿甚至数万亿的数据点进行训练。

同样,工程师们希望构建基础模型,让一系列机器人学习新技能,比如在家庭和工厂等场所拿起、移动和放置物品。问题在于,很难在不同的机器人系统之间收集和传输指导数据。你可以通过虚拟现实(VR)等技术,一步步远程操作硬件来训练你的系统,但这可能很耗时。在互联网视频上进行训练的指导意义较小,因为这些视频片段并没有针对特定机器人,提供一步步完成特定任务的演示。

麻省理工学院计算机科学与人工智能实验室(CSAIL)以及机器人与人工智能研究所采用一种名为“PhysicsGen”的模拟驱动方法,对机器人训练数据进行定制,以帮助机器人找到完成某项任务的最高效动作。该系统能够将几十次虚拟现实演示转化为每台机器近3000次模拟。随后,这些高质量指令会被映射到诸如机械臂和机械手等机器人的精确配置上。

PhysicsGen通过一个三步流程创建适用于特定机器人和条件的数据。首先,VR头戴设备追踪人类如何用手操控诸如积木之类的物体。与此同时,这些交互会在3D物理模拟器中进行映射,将我们手部的关键点可视化为模仿我们手势的小球体。例如,如果你翻转一个玩具,你会看到代表你手部不同部位的3D形状在旋转该物体的虚拟版本。

然后,该流程将这些点重新映射到特定机器(如机械臂)装置的三维模型上,将它们移动到系统扭转和转动的精确 “关节” 处。最后,PhysicsGen 使用轨迹优化技术——本质上是模拟完成任务的最高效动作——以便机器人了解重新放置盒子等操作的最佳方法。

每次模拟都是一个详细的训练数据点,引导机器人了解处理物体的潜在方法。当将其应用于策略(即机器人遵循的行动计划)时,机器就有多种方式来完成任务,并且如果一种方式行不通,还可以尝试不同的动作。

麻省理工学院博士生、计算机科学与人工智能实验室(CSAIL)成员杨璐洁是一篇介绍该项目的新论文的第一作者,她表示:“我们正在创建机器人专用数据,无需人类为每台机器重新录制专门的演示。我们正在以一种自主且高效的方式扩大数据规模,使任务指令对更多类型的机器有用。”

生成如此多的机器人指令轨迹,最终可能会帮助工程师建立一个庞大的数据集,以指导机械臂和灵巧机械手等机器。例如,该流程可能会帮助两个机械臂协作拿起仓库物品,并将它们放入正确的箱子以便发货。该系统还可能引导两个机器人在家中共同完成诸如收拾杯子之类的任务。

PhysicsGen的潜力还体现在,它能够将为旧机器人或不同环境设计的数据,转化为适用于新机器的有用指令。杨补充道:“尽管这些数据是为特定类型的机器人收集的,但我们可以让这些以前的数据集重新发挥作用,使其具有更广泛的用途。”

乘式加法

PhysicsGen仅将24个人类演示转化为数千个模拟演示,帮助数字机器人和现实世界中的机器人对物体进行重新定向。

杨和她的同事们首先在一个虚拟实验中测试了他们的流程,在这个实验中,一只漂浮的机械手臂需要将一个方块旋转到目标位置。这个数字机器人通过在PhysicGen的海量数据集上进行训练,以81%的准确率完成了任务,与仅从人类演示中学习的基线相比,提高了60%。

研究人员还发现,PhysicsGen可以改进虚拟机械臂协作操作物体的方式。他们的系统生成了额外的训练数据,帮助两组机器人成功完成任务的频率比纯人工指导的基线高出30%。

在一项针对一对现实世界机械臂的实验中,研究人员观察到,当这些机器协作将一个大箱子翻转到指定位置时,也出现了类似的改进。当机器人偏离预定轨迹或对物体操作不当,它们能够在任务进行中,通过参考其指令数据库中的替代轨迹来恢复正常。

资深作者拉斯·特德雷克(Russ Tedrake)是麻省理工学院电气工程与计算机科学、航空航天与机械工程领域的丰田教授。他补充说,这种模仿引导的数据生成技术结合了人类示范的优势与机器人运动规划算法的能力。

“即使只是人类的一次示范,也能让运动规划问题变得容易得多,” 泰德雷克说道。他同时也是丰田研究院大型行为模型高级副总裁和麻省理工学院计算机科学与人工智能实验室(CSAIL)首席研究员。“未来,或许基础模型将能够提供此类信息,而这种数据生成技术将为该模型提供一种训练后的方法。”

PhysicsGen的未来

很快,PhysicsGen可能会拓展到一个新领域:使机器能够执行的任务多样化。

“比如说,我们想用PhysicsGen让一个只接受过收拾餐具训练的机器人学会倒水,”杨说道。“我们的流程不仅能为熟悉的任务生成动态可行的动作;它还有潜力创建一个多样化的物理交互库,我们相信这个库可以作为完成人类未曾演示过的全新任务的基石。”

创建大量广泛适用的训练数据,或许最终有助于为机器人构建一个基础模型,不过麻省理工学院的研究人员提醒称,这是一个在一定程度上较为遥远的目标。由计算机科学与人工智能实验室(CSAIL)牵头的团队正在研究“物理生成”(PhysicsGen)如何利用海量的非结构化资源——比如网络视频——作为模拟的种子。其目标是:将日常视觉内容转化为丰富的、适用于机器人的数据,从而教会机器执行无人明确展示过的任务。

杨和她的同事们还旨在未来让PhysicsGen对各种形状和构造的机器人更有用。为了实现这一目标,他们计划利用包含真实机器人演示的数据集,记录机器人关节的运动方式,而非人类关节的运动方式。

研究人员还计划引入强化学习(即人工智能系统通过反复试验进行学习的方法),以使PhysicsGen在人类提供的示例之外扩展其数据集。他们可能会采用先进的感知技术来增强其流程,帮助机器人从视觉上感知和解读周围环境,从而使机器能够分析并适应物理世界的复杂性。

目前,PhysicsGen展示了人工智能如何帮助我们教会不同的机器人操作同一类别中的物体,尤其是刚性物体。该流程可能很快就能帮助机器人找到处理柔软物品(如水果)和可变形物品(如黏土)的最佳方法,但这些交互目前还不容易模拟。

杨和泰德雷克与两位计算机科学与人工智能实验室(CSAIL)的同事共同撰写了这篇论文:共同第一作者、麻省理工学院博士生徐炯柱(Hyung Ju “Terry” Suh),2022年获理学硕士学位;以及伯恩哈德·波斯·格雷萨尔(Bernhard Paus Græsdal)。机器人与人工智能研究所的研究人员赵童(Tong Zhao),2022年本科毕业、2023年获工程硕士学位;塔里克·凯莱斯泰穆尔(Tarik Kelestemur);王久光(Jiuguang Wang);以及庞涛(Tao Pang),2023年获博士学位,他们也是论文作者。这项研究得到了机器人与人工智能研究所和亚马逊的支持。

研究人员将于本月晚些时候在机器人科学与系统(RSS)会议上展示他们的成果。

http://www.lryc.cn/news/596021.html

相关文章:

  • 动漫短剧系统开发全流程解析:从创意到上线的技术实践
  • CSS中的transform
  • 力扣面试150题--寻找峰值
  • Numpy的应用-2
  • 2025年远程桌面软件深度评测:ToDesk、向日葵、TeamViewer全方位对比分析
  • oracle查询数据结构滤涉及的sql语句
  • 开发者的AI认知指南:用大模型重新理解人工智能(下)
  • 疯狂星期四文案网第15天运营日记
  • PCIe Base Specification解析(三)
  • TDengine时序数据库 详解
  • Kotlin介绍
  • Python机器学习:从零基础到项目实战
  • 时序数据库 TDengine × Ontop:三步构建你的时序知识图谱
  • 如何编译RustDesk(Unbuntu 和Android版本)
  • LeetCode 658.找到K个最接近的元素
  • Linux下的EtherCAT主站环境搭建和通信测试
  • ZooKeeper学习专栏(五):Java客户端开发(原生API)详解
  • 小米视觉算法面试30问全景精解
  • Linux--指令初识
  • RxSwift 核心解析
  • 鸿蒙ArkTS多环境API管理与安全签名方案实践
  • 【React-Three-Fiber实践】放弃Shader!用顶点颜色实现高性能3D可视化
  • 学习做精准、自动化、高效的 GEO优化系统
  • 水电站自动化升级:Modbus TCP与DeviceNet的跨协议协同应用
  • 使用Minio后处理图片回显问题
  • 2025乐彩V8影视系统技术解析:双端原生架构与双H5免签封装实战 双端原生+双H5免签封装+TV级性能优化,一套代码打通全终端生态
  • TDengine 计算百分位函数使用手册
  • 【LINUX】Centos 9使用nmcli更改IP
  • 【SpringAI实战】实现仿DeepSeek页面对话机器人
  • 基于FastMCP创建MCP服务器的小白级教程