当前位置：首页 > news >正文

认识自我的机器人：麻省理工学院基于视觉的系统让机器了解自身机体

news 2025/7/23 6:03:57

在麻省理工学院计算机科学与人工智能实验室（CSAIL）的一间办公室里，一只柔软的机械手小心翼翼地弯曲手指，抓住一个小物件。有趣的地方并非在于机械设计或内置传感器——事实上，这只手并没有这些东西。相反，整个系统仅依靠一台摄像头，该摄像头观察机器人的动作，并利用视觉数据对其进行控制。

这种能力来自于麻省理工学院计算机科学与人工智能实验室（CSAIL）科学家开发的一个新系统，它为机器人控制提供了一个不同的视角。该系统不使用手工设计的模型或复杂的传感器阵列，而是让机器人仅通过视觉来学习其身体对控制指令的反应。这种被称为“神经雅可比场（NJF）”的方法，赋予了机器人一种身体自我意识。

麻省理工学院计算机科学与人工智能实验室（MIT CSAIL）博士生、首席研究员李泽莱斯特（Sizhe Lester Li）表示：“这项研究表明，机器人领域正从编程机器人向教导机器人转变。如今，许多机器人任务都需要大量的工程设计和编码工作。未来，我们设想只需向机器人展示要做什么，然后让它自主学习如何实现目标。”

这一动机源于一种简单却有力的重新审视：实现价格亲民、灵活多变的机器人的主要障碍并非硬件，而是对其性能的控制，而这可以通过多种方式实现。传统机器人被设计得结构坚固且传感器丰富，这使得构建数字孪生体（一种用于控制的精确数学复制品）变得更容易。但当机器人是柔软的、可变形的或形状不规则时，这些假设就不成立了。NJF并没有强迫机器人去匹配我们的模型，而是反其道而行之，赋予机器人通过观察来学习自身内部模型的能力。

这种建模与硬件设计的解耦可以显著拓展机器人技术的设计空间。在软体机器人和受生物启发的机器人中，设计人员常常嵌入传感器或加固结构部件，仅仅是为了让建模可行。NJF消除了这一限制。该系统无需机载传感器或设计调整就能实现控制。设计人员可以更自由地探索非传统、不受限制的形态，而无需担心日后能否对其进行建模或控制。

“想想你是如何学会控制手指的：摆动手指、观察效果、做出调整，” 李说。“这就是我们的系统所做的。它会尝试随机动作，弄清楚哪些控制操作能移动机器人的哪些部位。”

该系统已被证明在一系列机器人类型中都具有稳健性。研究团队在一款能够捏取和抓取的气动软机器人手、一只刚性的阿莱格罗手、一个3D打印的机械臂，甚至是一个没有嵌入传感器的旋转平台上对NJF进行了测试。在每种情况下，该系统仅通过视觉和随机运动，就能了解机器人的形状以及它对控制信号的反应。

研究人员认为其潜力远不止于实验室。配备了NJF的机器人或许有一天能够以厘米级的定位精度执行农业任务，无需复杂的传感器阵列即可在建筑工地上作业，或者在传统方法失效的动态环境中导航。

NJF的核心是一个神经网络，它捕捉了机器人具身的两个相互交织的方面：其三维几何形状以及对控制输入的敏感度。该系统基于神经辐射场（NeRF）构建，这是一种通过将空间坐标映射为颜色和密度值，从图像中重建3D场景的技术。NJF扩展了这种方法，不仅学习机器人的形状，还学习雅可比场，这是一个预测机器人身体上任意一点如何响应电机指令而移动的函数。

为了训练该模型，机器人会进行随机运动，同时多个摄像头记录运动结果。这一过程无需人工监督，也无需有关机器人结构的先验知识，该系统只需通过观察，就能推断出控制信号与运动之间的关系。

一旦训练完成，该机器人仅需一个单目摄像头即可进行约12赫兹的实时闭环控制。这使得它能够持续观察自身状态、进行规划并做出响应。这一速度使NJF相较于许多基于物理原理的软体机器人模拟器更具可行性，因为后者往往计算量过大，无法用于实时操作。

在早期的模拟中，即使是简单的二维手指和滑块，也能仅通过几个示例就学会这种映射。通过对特定点如何因动作而变形或移动进行建模，神经雅可比场（NJF）构建了一个密集的可控性映射。这种内部模型使它能够在机器人身体上对动作进行泛化，即使数据存在噪声或不完整。

李说：“真正有趣的是，该系统能自行弄清楚哪些电机控制机器人的哪些部件。这并非预先编程设定，而是通过学习自然形成的，就如同一个人摸索新设备上的按钮一样。”

未来是柔软的

几十年来，机器人学一直青睐刚性的、易于建模的机器，比如工厂里的工业机械臂，因为它们的特性简化了控制难度。但该领域一直在朝着受生物启发的柔性机器人发展，这类机器人能够更灵活地适应现实世界。那么代价是什么呢？这些机器人更难建模。

“如今，由于传感器成本高昂和编程复杂，机器人技术常常让人觉得遥不可及。我们研发神经雅可比场（Neural Jacobian Fields）的目标是降低门槛，让更多人能够负担得起、灵活应用并接触到机器人技术。视觉是一种有韧性且可靠的传感器。” 资深作者、麻省理工学院助理教授文森特·齐茨曼（Vincent Sitzmann）说道，他同时也是场景表示小组的负责人。“它为机器人打开了一扇门，使它们能够在从农场到建筑工地等杂乱无章的非结构化环境中运行，而无需昂贵的基础设施。”

“仅靠视觉就能提供定位和控制所需的线索，从而无需全球定位系统（GPS）、外部追踪系统或复杂的机载传感器。这为在非结构化环境中实现强大的自适应行为开辟了道路，从无需地图即可在室内或地下导航的无人机，到在杂乱的家庭或仓库中工作的移动操纵器，甚至是穿越不平坦地形的腿式机器人，” 合著者丹妮拉·鲁斯（Daniela Rus）说。“通过从视觉反馈中学习，这些系统建立起自身运动和动力学的内部模型，能够在传统定位方法失效的情况下实现灵活的、自我监督的操作。”

虽然目前训练NJF需要多个摄像头，而且每个机器人都必须重新进行训练，但研究人员已经在设想一个更易于使用的版本。未来，业余爱好者可以用手机记录机器人的随机动作，就像在开走一辆租车前拍摄视频一样，然后利用这些视频片段创建一个控制模型，无需任何先验知识或特殊设备。

该系统目前还无法在不同机器人上通用，且缺乏力觉或触觉感知，这限制了它在大量接触任务中的效能。但该团队正在探索新方法来解决这些局限：提高通用性、处理遮挡问题，以及拓展模型在更长时空范围内进行推理的能力。

李说：“就像人类对自己身体如何移动以及如何响应指令形成了一种直观的理解一样，NJF仅通过视觉就赋予了机器人这种具身的自我意识。这种理解是在现实世界环境中进行灵活操作和控制的基础。从本质上讲，我们的工作反映了机器人领域的一个更广泛的趋势：从手动编写详细模型转向通过观察和互动来教导机器人。”

该研究得到了所罗门·布克斯鲍姆研究基金（通过麻省理工学院研究支持委员会）、麻省理工学院校长奖学金、美国国家科学基金会以及光州科学技术院的支持。他们的研究结果本月发表在《自然》杂志上。

查看全文

http://www.lryc.cn/news/595815.html