当前位置：首页 > news >正文

字节的机器人模型 GR-3

news 2025/7/26 7:34:01

25年7月字节发布技术报告“GR-3 Technical Report”。

这是字节在通才机器人策略方面的最新进展，即 GR-3 的开发。GR-3 是一个大规模的视觉-语言-动作 (VLA) 模型。它展现出卓越的泛化能力，能够泛化至新物体、新环境以及涉及抽象概念的指令。此外，它能够利用极少的人类轨迹数据进行高效微调，从而快速且经济高效地适应新环境。GR-3 还擅长处理长范围和灵巧的任务，包括需要双手操作和移动的任务，展现出稳健可靠的性能。这些能力是通过多方面的训练方案实现的，包括与网络规模的视觉-语言数据协同训练、利用通过 VR 设备收集的人类轨迹数据进行高效微调，以及利用机器人轨迹数据进行有效的模仿学习。此外，字节还推出 ByteMini，这是一款多功能的双手移动机器人，具有卓越的灵活性和可靠性，与 GR-3 集成后能够完成各种任务。大量的实际实验验证，GR-3 在各种具有挑战性的任务上都超越最先进的基线方法 π0。

开发能够协助人类完成日常任务的智能通才机器人一直是机器人研究领域的长期目标 [3, 7, 9–11, 13, 67]。现实世界的多样性带来了一项关键挑战，要求机器人策略具备强大的泛化能力，以应对各种新场景。此外，许多日常任务本质上是长期的，需要复杂灵巧的操作，这就要求机器人策略具有高度的鲁棒性和可靠性。视觉-语言-动作 (VLA) 模型 [9, 11, 29, 37, 67] 的最新进展为开发智能通才机器人策略铺平了一条充满希望的道路。这些模型建立在预训练的视觉-语言模型 (VLM) [4, 14, 19, 39] 的基础上，并集成动作预测功能，使机器人能够按照自然语言指令执行各种任务。尽管取得了这些进展，但指令遵循仍然是一项重大挑战，尤其是对于涉及机器人轨迹数据中未见的新物体类别和/或需要复杂推理的复杂概念的分布式指令[11, 49]。此外，VLA模型通常需要大量的演示进行策略训练，这对于高效地适应新环境构成了巨大挑战。最后，由于累积误差，确保复杂的长时程任务鲁棒性仍然具有挑战性，尤其是在涉及灵巧技能的任务（例如操纵可变形体）中。

本报告介绍 GR-3，如图所示，一种大规模视觉-语言-动作 (VLA) 模型，该模型 1) 严格遵循语言并能很好地推广到新物体、环境和指令，2) 可有效地从少量人类轨迹数据中学习，以快速适应新环境，3) 可执行长远和灵巧的任务，具有很高的鲁棒性和可靠性。

请添加图片描述

为了增强泛化能力，本文用机器人轨迹数据和涵盖各种视觉语言任务的大规模视觉语言数据对 GR-3 进行联合训练。这种训练方法使 GR-3 不仅能够处理来自新类别的物体，还能理解与尺寸、空间关系和常识性知识相关的抽象概念（如图所示），而这些概念在机器人轨迹数据中是无法感知的。

请添加图片描述

GR-3 是一个端到端的视觉-语言-动作 (VLA) 模型 π_θ。它通过生成一个长度为 k 的动作块 a_t = a_t:t+k 来控制带有移动基座的双手机器人，该动作块以输入语言指令 l、观测值 o_t 和机器人状态 s_t 为条件，即 a_t = π_θ(l,o_t,s_t)。GR-3 采用混合 transformer (Mixed-of-Transformers) 架构 [45]。它使用预训练好的视觉-语言模型 (VLM)（即 Qwen2.5-VL-3B-Instruct [2]）处理来自多个摄像机视角的观测图像和语言指令，并使用动作扩散transformer (DiT) [56] 预测动作块。具体而言，GR-3 采用流匹配进行动作预测 [9, 47, 48]。流预测以当前机器人状态 s_t 和 VLM 主干网络输出的K_V缓存为条件。长度为 k 的动作块 a_t 表示为 k 个token，并与机器人状态token连接起来，创建动作 DiT 的输入token序列。流匹配时间步长通过自适应层范数 (AdaLN) [57] 注入。在动作 DiT 中应用因果注意掩码，以建模动作块内的时间依赖性。为了确保快速推理，动作 DiT 的层数是 VLM 主干网络的一半，并且仅使用 VLM 层后半部分的 KV 缓存。GR-3 总共包含 40 亿个参数。

在早期的探索中，发现训练过程中经常出现不稳定的情况。受 QK 范数 [26] 的启发，在 DiT 块内的注意网络和前馈网络 (FFN) 中的线性层之后应用额外的 RMSNorm [78]。这种设计选择极大地提高整个训练过程的稳定性。

基于多种数据源训练 GR-3 模型，包括用于模仿学习的机器人轨迹数据、用于协同训练的网络规模视觉语言数据，以及用于少样本泛化的人类轨迹数据。这种训练方法使 GR-3 能够：1）泛化至新物体、环境和指令；2）以低成本高效地适应未知环境；3）稳健地执行长范围和灵巧任务。

利用机器人轨迹数据进行模仿学习

通过在一组专家演示 D 上最大化策略的对数似然性，以模仿学习目标训练 GR-3。具体来说，在训练期间使用流匹配损失来监督动作预测。为了加速训练，计算 VLM 主干网络一次前向传播中，多个采样流匹配时间步长的流匹配损失 [42]。推理过程中，动作块由随机噪声 a_τ = 0 ∼ N (0, I) 初始化，并使用欧拉方法从 τ = 0 积分到 τ = 1。

利用远程操作收集真实的机器人轨迹。为了使收集过程更可控并最大化数据多样性，其开发一个数据收集调度程序（如图所示），用于告知远程操作员 1）要执行的操作、2）目标组合以及 3）背景设置。在每次轨迹收集开始时，系统都会为远程操作员生成一个新的配置，以便其相应地安排环境。调度程序的实现，能够有效地管理整体数据分布，并彻底随机化收集的数据，从而大大增强数据集的丰富性和多样性。此外，还进行收集后质量检查，通过过滤无效和低质量数据来优化数据集。

请添加图片描述

先前的研究 [38] 表明，策略可能会利用来自多个视角的虚假相关性来预测动作，而不是正确地关注语言条件。为了解决这个问题，加入“任务状态”作为辅助监督的附加动作维度。任务状态可以是以下之一：Ongoing (0)、Terminated (1)、Invalid (-1)。 “Ongoing”状态表示机器人正在执行任务，而“Terminated”状态表示机器人已成功完成任务。“Invalid”状态表示给定的指令在当前观察下无效。例如，如果桌子上没有刀，“将刀放入编织篮”将被视为 Invalid。在训练期间，随机用 Invalid 指令替换语言指令，并训练模型在动作块的其他维度上进行无监督预测 Invalid 状态。这种设计迫使动作 DiT 关注语言指令并估计任务状态，从而显著提高语言跟随能力。

视觉-语言数据协同训练

为了赋予 GR-3 遵循分布外 (OOD) 指令的泛化能力，用机器人轨迹和视觉-语言数据对 GR-3 进行联合训练（如图所示）[11]。机器人轨迹数据使用流匹配目标函数训练 VLM 主干网络和动作 DiT。视觉语言数据仅使用下一个token 预测目标函数训练 VLM 主干网络。为简单起见，将视觉-语言数据与机器人轨迹以相同的权重动态地跨小批量混合。因此，协同训练目标是下一个 token 预测损失函数和流匹配损失函数之和。

请添加图片描述

通过与视觉-语言数据协同训练，GR-3 能够有效地泛化到未见过的物体，并以零样本方式理解复杂概念的新语义。从多种数据源 [25, 30, 39, 62, 75] 中整理出一个大型视觉-语言数据集。该数据集涵盖了广泛的任务，包括图像字幕、视觉问答、图像基础以及交错式基础图像字幕。还开发过滤和重注释流程，以提高数据集的质量，从而实现有效的协同训练。协同训练不仅帮助 GR-3 保持预训练 VLM 所具备的强大视觉-语言能力，还使动作 DiT 能够将这些能力应用于动作预测，从而有效提升其在下游操作任务中的泛化能力。

利用人体轨迹数据进行少样本泛化

GR-3 是一个多功能的 VLA 模型，可以轻松进行微调以适应新的环境。然而，收集真实的机器人轨迹既费时又费钱。VR 设备和手部追踪技术的最新进展为直接从人体轨迹数据中学习动作创造了良好的机会 [27, 34, 59]。本报告将 GR-3 高效的微调能力扩展到从最少人类轨迹进行少样本学习这一具有挑战性的场景。具体来说，在新的环境下，用 PICO 4 Ultra Enterprise 收集少量的人类轨迹数据。利用 VR 设备可以高效地收集人体轨迹，速度约为每小时 450 条轨迹，远远超过遥控机器人轨迹收集的速度（后者每小时收集约 250 条轨迹）。这种效率有助于快速且经济高效地适应新的环境。

具体来说，收集的人类轨迹数据包含以自我为中心的视频和人手轨迹。用与机器人轨迹相同的标注流程，用语言标注人类轨迹数据。在完成视觉语言数据和机器人轨迹的第一阶段训练后，将人类轨迹数据纳入其中，并对这三种类型的数据进行协同训练。与机器人轨迹不同，人类轨迹数据仅包含以自我为中心的视角和手部轨迹用空白图像填充缺失的腕部视角，并仅使用手部轨迹训练人类轨迹数据的模型。

ByteMini 机器人

ByteMini 机器人（如图所示）用于数据收集和策略部署。这款 22 自由度双手移动机器人的设计核心目标包括三个：灵活操控、高可靠性和用户友好性。

请添加图片描述

灵活操控。7 自由度无偏置机械臂采用独特的球形腕关节结构 [22]，实现类似人类的灵活性。紧凑的球形腕关节设计（如上图所示）克服了传统 SRS 结构机械臂 [54] 的关键局限性，即其腕关节尺寸不够紧凑，不利于在狭小空间内灵活操作。机械臂肘部经过特殊设计，可实现高达 2.53 弧度的内收，使双臂能够在机器人胸部区域内执行精细操作。

高可靠性。数据收集和策略部署期间的繁重工作量要求 ByteMini 具备极高的稳定性和一致性。其采用集成升降机构的全向移动平台，实现稳定的空间移动和垂直高度调节。为了进一步提高可靠性并确保运动一致性，手臂中的执行器采用准直接驱动 (QDD) 原理 [35] 设计，该原理以其稳定性和高透明度而闻名。

用户友好性。为了提高易用性，在机器人上集成便携式屏幕和 NUC，并由双锂电池供电，可在各种场景下提供超过 10 小时的超长续航时间。此外，ByteMini 配备无线紧急停止装置，可快速响应紧急情况。

在头部和两个手腕上安装 RGBD 摄像头。腕部摄像头可用于近距离观察，从而实现精细操作。

系统与控制

全身柔顺控制。全身柔顺控制框架 [65] 将所有自由度 (DoF) 视为一个整体结构，将任意的远程操作人体运动重定向到可行的机器人运动。在实时最优控制问题中，可操作性优化、奇异点规避和物理关节限制同时得到解决，以最大限度地提高机器人的灵活性。这可以在大型工作空间内为各种远程操作任务生成流畅连续的运动，并为策略训练生成高质量的专家轨迹。柔顺力控制器可实现高度动态的运动以及与环境的物理交互，从而提高安全性和数据收集效率。

全身远程操作。在远程操作数据收集过程中，通过 Meta VR Quest 进行全身重定向提供了直观且用户友好的控制，可将人体运动直接映射到机器人末端执行器。远程操作员可以同时控制手臂、升降机构、夹持器和移动基座的运动，从而为现实世界中复杂的远程任务提供无缝数据收集。

策略部署的轨迹优化。用预测的动作块来控制机器人的 19 个自由度（不包括升降机构和头部的 3 个自由度），以进行策略部署。结合纯追踪 [15] 和轨迹优化，增强 GR-3 在策略部署过程中生成的轨迹的稳定性和平滑度。实时参数化优化可最大限度地减少抖动，并确保航点之间以及轨迹之间的无缝过渡。

可泛化的拾取放置

为了评估 GR-3 在分布外场景下的泛化能力，其评估一项以泛化为重点的拾取放置任务。总共收集 3.5 万条机器人轨迹，涵盖 101 个物体，这项任务耗时共计 69 小时。用“将 A 放入 B”指令对机器人轨迹进行注释，其中 A 是物体类别，B 是容器。对于基线模型，用这些机器人轨迹数据对 π0 进行微调。对于 GR-3，用机器人轨迹数据和视觉语言数据对模型进行协同训练。在训练过程中，用光度增强技术对机器人轨迹图像进行增强，以提高模型对变化环境的鲁棒性。还与其方法的变体 GR-3（无协同训练）进行比较，后者仅使用机器人轨迹来训练模型。这项消融研究有助于评估视觉-语言协同训练的影响，并确定其对模型性能的具体益处。

设置。在四种不同的设置下进行评估：1）基本设置，2）未知环境，3）未知指令，以及 4）未知物体。在基本设置中，在训练期间见过的环境中进行评估。我用训练期间见过的 54 个物体（如图 (a) 所示）进行评估，以测试模型对基本指令的遵循能力。在未知环境中，用训练期间未见的四个不同真实环境中的同一组物体进行评估：收银台、会议室、办公桌和休息室（如图 © 所示）。物体的布局与基本设置保持一致。在未知指令中，向模型提供需要复杂概念理解的指令，例如“将左边的可乐放入纸盒”和“将长有触手的动物放入纸盒”。在“未见过物体”测试中，用机器人轨迹数据中未见过的 45 个物体进行评估（如图 (b) 所示）。

请添加图片描述

用指令遵循率 (IF) 和成功率来评估模型性能，这两个指标分别衡量模型遵循指令的能力及其在任务完成方面的整体表现。对于 IF 率，如果机器人正确地接近给定指令指定的物体，则认为试验成功。对于成功率，如果机器人将目标物体放入容器中，则认为试验成功。对于这两个指标，分数越高，能力越强。

长范围餐桌清理

其进行一项餐桌清理任务实验，以评估 GR-3 在长时程操作方面的鲁棒性（如图所示）。在此任务中，机器人需要清理一张摆放着凌乱餐具、食物、外带盒和塑料清理盒的桌子。为了完成任务，机器人需要 1) 将食物装入外带盒；2) 将所有餐具放入清理盒；3) 将所有垃圾放入垃圾桶。由于工作空间较大，机器人需要将其移动基座从外带盒移动到清理盒才能完成整个任务（如图 (a) 所示）。在平版环境（Flat）和指令跟随 (IF) 环境中评估模型。

平版环境。在此环境中，向机器人发出“清理餐桌”的通用任务指令，使其在一次运行内自主完成整个任务（如图(a) 所示）。平版设置有助于评估模型处理长周期任务的鲁棒性。用平均任务进度（计算成功完成的子任务占子任务总数的比例）作为评估指标。1.0 表示完全成功，小数部分表示部分成功。总体而言，针对此设置评估了五组不同的目标。

指令遵循 (IF) 设置。在此设置中，进一步评估模型的执行情况。向机器人连续提示多个子任务描述，例如“将纸杯放入垃圾桶”，以清理桌子。机器人从起始位置开始执行每个子任务。我用平均子任务成功率作为评估指标。总体而言，IF 设置涵盖六组不同的指令（如图 (b) 所示）：

请添加图片描述

基本：目标布局与训练数据中的布局非常相似。
多目标：将目标类别子集的多个实例添加到场景中。设置了指令，指示机器人将所有属于这些类别的实例放入收拾箱或垃圾桶。
多目的地：在场景中添加一个编织篮，并指示机器人将餐具放入编织篮或收拾箱。
多目标和目的地：将上述两种设置结合起来，指示机器人将同一物体类别的所有实例移动到两个目的地之一。
新的目的地：要求机器人将物体移动到训练数据中未与该物体一起出现的目的地，例如“将叉子放入垃圾桶”。
无效任务：在实际应用中，机器人需要处理复杂的指令，其中一些指令可能无效。例如，如果桌子上没有蓝色碗，“将蓝色碗放入塑料盒”将被视为无效指令。在这种情况下，希望策略拒绝执行错误的有效任务 [52]。在此设置下，向模型提示一些无法通过给定观察完成的任务。只有当模型在 10 秒内停止操作任何物体时，试验才算成功。

实现。总共为此任务收集大约 101 小时的机器人轨迹。对于基线方法，基于这些机器人轨迹微调 π0。对于 GR-3，同时对机器人轨迹和视觉语言 (VL) 数据进行联合训练。还使用方法的两种变型 GR-3 w/o Norm 和 GR-3 w/o Task Status (TS) 进行消融研究。GR-3 w/o Norm 移除 DiT 块的注意机制和 FFN 中引入的 RMSNorm。GR-3 w/o TS 在训练过程中不纳入任务状态。对于所有方法，分别针对这两种设置训练两个独立的模型：一个平版和一个 IF 版。

对于平版，在通用任务和子任务之间随机抽样作为语言指令。对于 IF 版本，在训练期间仅使用子任务作为指令。实验结果如上图（d）所示。

灵巧的衣物操控

在本实验中，评估 GR-3 对可变形体的灵巧操控能力。具体来说，让模型用衣架将衣服挂到晾衣架上。在这个任务中，机器人需要 1) 拿起衣架，2) 将衣服放在衣架上，3) 将衣服挂到晾衣架上。最后一步，机器人需要将其移动底座从桌子旋转到晾衣架上以悬挂衣服。总共收集 116 小时的机器人轨迹，用于这项任务。利用这些数据训练 π0。对于 GR-3，利用这些机器人轨迹和视觉语言数据进行联合训练。在三种不同的设置下进行评估：基本设置、位置设置和未见实例设置。

设置：对于基本设置，评估训练过程中看到的六件衣服。衣服的位置与训练数据中的位置相似。对于位置设置，旋转并揉皱衣服，如图 (b) 所示。位置设置评估模型在处理复杂服装布局时的稳健性。在未见实例中，评估模型泛化到训练期间未见过服装的能力。具体来说，用四件未见服装进行评估（图 (a)）。

请添加图片描述

训练数据中的所有服装均为长袖，而测试集中的两件未见服装是短袖。用平均任务进度作为评估指标，其中完全成功（将衬衫挂在晾衣架上）对应 1.0 分。整个过程分为四个关键里程碑（如下图 (a)所示）：1) 拿起衣架，2) 将右肩放在衣架上，3) 将左肩放在衣架上，4) 将衬衫挂在晾衣架上。每个里程碑都会为整体任务进度贡献一个分数。实验结果如下图（b）所示。

请添加图片描述