当前位置：首页 > news >正文

野外具身视觉跟踪：北大团队TrackVLA让AI视觉跟踪进化到2.0时代

news 2025/7/23 9:16:51

编辑：陈萍萍的公主@一点人工一点智能

野外具身视觉跟踪：北大团队TrackVLA让AI视觉跟踪进化到2.0时代文章聚焦于具身视觉跟踪(EVT)这一具身人工智能(Embodied AI)领域的核心问题。https://mp.weixin.qq.com/s/7WUVDTDebDhhR_c2HXa1bQ

导读：论文提出了一种创新的视觉-语言-动作(VLA)模型TrackVLA，旨在解决具身视觉跟踪这一具身人工智能领域的核心挑战。文章首先概述了研究的背景意义和主要贡献，随后详细解析了论文的各个组成部分，包括问题定义与挑战、TrackVLA架构设计、数据收集与基准构建、实验结果与分析以及研究的局限性与未来方向。

01 简介

文章聚焦于具身视觉跟踪(EVT)这一具身人工智能(Embodied AI)领域的核心问题。具身视觉跟踪要求智能体在动态环境中仅依靠自我中心视觉(first-person vision)持续追踪特定目标，是机器人技术中人类跟随、目标追踪等实际应用的基础能力。开篇指出传统方法通常将识别与规划两个关键能力模块化分离，这种松散耦合设计容易导致错误累积——识别模块的错误会传导至规划模块，反之亦然。这一洞察准确抓住了当前领域面临的核心挑战。

针对这一挑战，研究团队提出了TrackVLA模型，其创新之处在于采用统一框架整合目标识别与轨迹规划两种能力。TrackVLA基于共享的大型语言模型(LLM)骨干网络，使用语言建模头处理识别任务，同时采用基于锚点的扩散模型生成轨迹规划。这种设计实现了两种能力间的协同优化，而非简单串联。

另一重要贡献是构建了包含170万样本的大规模具身视觉跟踪基准(EVT-Bench)，涵盖不同难度级别的识别样本，为模型训练提供了丰富数据支持。研究通过大量合成与真实环境实验证明，TrackVLA在公开基准上以零样本方式显著超越现有方法，并在高动态和遮挡的真实场景中保持10 FPS的推理速度，展现出卓越的实时性能和泛化能力。

从技术定位来看，这项工作属于视觉-语言-动作(VLA)模型在具身智能领域的前沿探索。近年来，VLMs(视觉-语言模型)展现出惊人的泛化能力，而将其扩展至包含动作生成的VLA模型已成为具身AI社区的新趋势。TrackVLA的创新在于专门针对高动态环境下的视觉跟踪任务优化设计，相比主要面向静态室内环境的现有导航模型，更贴近现实世界的复杂性。图1所示的模型示意图清晰展示了TrackVLA能同时处理机器人跟踪轨迹输出和识别问题回答的双模态输出能力，这种设计极大增强了模型在真实人机交互场景中的实用性。

研究背景部分详细梳理了相关工作的三个方向：具身视觉跟踪、具身导航和视觉-语言-动作模型。特别指出当前大多数具身导航任务针对静态室内环境设计，忽视了现实世界固有的动态特性。相比之下，TrackVLA专注于更具挑战性的动态环境跟踪，要求智能体在严重遮挡和高场景动态条件下识别移动目标并持续追踪。相关工作对比显示，现有VLA模型如Uni-NaVid虽然支持自然语言输入，但受限于离散动作空间，难以适应复杂现实环境。这些分析为TrackVLA的技术创新提供了充分的理论依据和应用场景支撑。

02 问题定义与挑战

具身视觉跟踪任务定义：在每个时间戳T，给定描述特定目标外观的自然语言指令I和自我中心RGB观察序列 $O_T=\{x_1,...,x_T\}$ ，智能体需要输出下一个动作 $a_T\in \mathbb{A}=\{v,w\}$ 以在未知环境中持续跟随描述的目标。其中动作空间A包含智能体的线速度v和角速度ω。任务的成功标准是智能体能够持续保持与目标1-3米的适当跟随距离并朝向目标。这一定义明确了任务的输入输出规范及评估标准，为后续算法设计奠定了基础。

面临的双重挑战：目标识别和轨迹规划。

· 目标识别要求智能体在复杂背景下准确辨识并区分指定目标，尤其是在存在相似干扰物的情况下。

· 轨迹规划则需要智能体根据动态环境确定最优跟踪路径，处理遮挡、障碍物规避等复杂情况。

这两种能力在传统方法中通常被解耦为独立的检测模型和规划模型，虽然可以利用视觉基础模型(如Segment Anything)和策略学习技术(如模仿学习、强化学习)的快速发展，但这种分离架构在类别级跟踪和相对开放区域表现尚可，却难以应对复杂场景下的误差累积问题。

论文特别强调了动态环境带来的额外挑战。与静态导航不同，具身视觉跟踪中的目标持续移动，环境可能包含多个移动障碍物，这要求智能体具备实时适应能力和长期预测能力。此外，自我中心视角的有限视野(通常仅90度FOV)进一步增加了任务难度，因为目标可能频繁离开视野范围。现实场景中的光照变化、目标外观变化、部分遮挡等情况更是对模型的鲁棒性提出了极高要求。这些挑战在论文提出的EVT-Bench基准中得到系统体现，该基准包含单目标跟踪(STT)、分心跟踪(DT)和模糊跟踪(AT)三个子任务，难度递增。

从认知科学角度看，人类执行视觉跟踪任务时，感知与行动是紧密耦合的过程——我们通过动作调整感知视角，同时基于感知信息指导下一步动作。传统模块化方法破坏了这种自然耦合，而TrackVLA的核心创新正是试图重建这种协同关系。论文指出，实现这种协同的关键是设计一个统一模型，使其既能理解语言指令和视觉场景，又能生成合理的运动策略。这一观点与近年认知科学中"embodied cognition"(具身认知)理论相契合，强调感知、认知与行动间的不可分割性，为TrackVLA的架构设计提供了理论支撑。

03 TrackVLA架构设计

3.1 整体架构概述

TrackVLA的整体架构体现了多模态融合与任务协同的先进设计理念。如图2所示，系统接收视频输入和语言指令，通过并行分支处理实现轨迹规划和目标识别双重功能。模型的核心创新在于共享的表示学习和差异化的任务解码——两个任务使用相同的标记编码和LLM前向机制预测下一个标记，而解码则根据任务类型有所不同。对于识别任务，采用标准的语言建模头自回归解码文本响应；对于规划任务，则利用基于锚点的扩散头生成路径点轨迹。这种设计既保证了表征共享带来的协同效应，又通过专业化解码头满足不同任务的输出需求。

模型的输入处理采用层次化表示策略。给定自我中心RGB序列 $O_T=\{x_1,...,x_T\}$ ，使用预训练的EVA-CLIP视觉编码器提取视觉特征 $\pmb{\text{V}}_{1:T}\in \mathbb{R}^{N\times C}$ ，其中N为图像块数量(设为256)，C为嵌入维度。为平衡标记长度与性能，创新性地采用网格池化策略生成多尺度表示：细粒度特征 $V_\text{fine}\in \mathbb{R}^{64 \times C}$ 用于最新跟踪观察以增强目标识别，粗粒度特征 $V_\text{coarse}\in \mathbb{R}^{4 \times C}$ 用于历史跟踪和基于VQA的识别。这种多尺度处理机制有效兼顾了细节感知与计算效率的需求。

3.2 观察编码与语言模型处理

观察编码阶段的技术创新体现在时序滑动窗口机制和视觉-语言对齐策略上。为保证推理速度的一致性，系统仅保留最新的k帧(实现中设为32)，通过滑动窗口组织视觉标记序列。对于具身视觉跟踪任务，构建视觉标记序列为 $\mathcal{V}^\text{track}_{T}=\{V^\text{coarse}_{T-k},...,V^\text{coarse}_{T-1},V^\text{fine}_{T}\}$ ；而对于视频问答(VQA)识别任务，则构建为 $\mathcal{V}^\text{VQA}_{T}=\{V^\text{coarse}_{1},...,V^\text{coarse}_{T}\}$ 。这种差异化的序列构建方式反映了两种任务对历史信息的不同需求。随后，采用跨模态投影器P(·)(2层MLP)将视觉特征投影到大型语言模型的潜在空间： $\pmb{\text{E}}^{V}_{T}=\mathcal{P}(\mathcal{V}_T)$ ，实现模态对齐。

大型语言模型的前向传播过程体现了条件化处理思想。将视觉标记 $\pmb{\text{E}}^{V}_{T}$ 与语言标记 $\pmb{\text{E}}^{I}$ 连接(跟踪任务额外添加特殊的[Track]标记)，输入LLM(采用Vicuna-7B)获得预测标记 $\pmb{\text{E}}^\text{pred}_{T}$ 。该标记根据不同任务(由[Track]标记的存在决定)进行差异化处理。这种设计巧妙利用了LLM作为统一处理器的能力，同时通过特殊标记实现任务路由，比传统多任务学习的参数隔离或梯度调制方法更为简洁高效。实验表明，这种共享处理机制不仅减少了参数数量，还促进了识别与规划任务间的知识迁移。

3.3 基于锚点的扩散动作模型

动作生成模块采用了创新的锚点引导扩散策略，如图3所示。与传统扩散策略相比，该方法从预定义锚点出发进行去噪生成路径点轨迹，这些锚点提供初始粗轨迹，显著减少所需的去噪迭代次数，相比普通扩散策略实现5倍加速。技术实现上，首先从训练数据收集所有轨迹，应用K-means聚类获得轨迹锚点集合 $\{\tau_i\}^{M}_{i=1}$ ，每个锚点 $\tau_i=(x_i,y_i,\theta_i)^{N_w}_{i=1}$ 表示一种机器人轨迹模式。然后用高斯噪声扰动每个锚点创建噪声锚点 $\{\tilde{\tau}_i\}^{M}_{i=1}$ 。

动作模型A_θ(·)以噪声锚点集合和条件 $\pmb{\text{E}}^\text{pred}_{T}$ 为输入，输出去噪轨迹 $\{\tilde{\tau}_i\}^{M}_{i=1}$ 及对应轨迹分类分数 $\{\hat{s}_i\}^{M}_{i=1}$ 。对于每个样本，将最接近真实轨迹 $\tau_{\text{gt}}$ 的锚点轨迹标记为正(snearest=1)，其他为负(selse=0)。然后联合优化轨迹回归损失和分数预测损失，定义跟踪损失Ltrack为公式(3)所示的加权组合。这种混合监督策略既保证了轨迹的形状精度，又确保了从多个候选锚点中选择最合适的轨迹。

扩散变换器(DiT)的去噪过程采用了高效调度策略。在训练阶段，将扩散步骤截断至最多50步(总1000步)，仅添加少量噪声；推理时仅需2个去噪步骤即可获得高质量轨迹。这种设计使模型在保持扩散模型生成优势的同时，满足了实时控制的计算效率要求。实验对比表明，这种锚点引导扩散策略在SR、TR、CR等指标上均优于自回归、MLP和普通扩散策略等基线方法，同时保持了13ms的高效推理速度。

04 数据收集与基准构建

4.1 EVT-Bench构建与数据收集

研究团队构建了专门的具身视觉跟踪模拟器作为数据收集平台，基于Habitat 3.0进行扩展增强。模拟器的创新主要体现在两方面：人形化身生成和自然人类行为模拟。在人形化身生成方面，采用SMPL-X人体模型，使用随机形状和采样的UV纹理图(来自ATLAS数据集)初始化化身，并利用Qwen-VL视觉语言模型获取对应的文本描述，实现了多样化化身的自动化生成与标注。在行为模拟方面，为每个化身分配一系列必须按顺序到达的目标，设置随机的行走状态，速度从自然人类行走速度范围[1.0 m/s-1.5 m/s]中随机采样，并采用ORCA算法实现动态避碰和响应式交互，生成更自然的行为模式。

基于模拟器，研究团队构建了具身视觉跟踪基准EVT-Bench，包含100个多样化人形化身及其描述，使用HM3D和MP3D的804个场景环境，生成总计25,986个episode，划分为训练集(21,771个episode，703个场景)和测试集(4,215个episode，101个未见场景)。基准设计了三级难度任务：单目标跟踪(STT)评估基本跟随能力；分心跟踪(DT)评估细粒度描述下的识别能力；模糊跟踪(AT)评估存在相同外观干扰物时的目标识别能力。这种层次化设计全面覆盖了现实场景可能面临的挑战，为算法评估提供了丰富维度。

4.2 视频问答数据集的构建

为弥补合成环境数据的局限性，研究团队额外收集了855K识别样本与跟踪样本联合训练。识别样本包含362K人类识别样本和493K开放世界VQA样本。人类识别数据基于公开的SYNTH-PEDES人-文本数据集构建，要求模型识别或描述视频中随机组合的人类主体和背景场景中的个体。每个样本通过将1-3个随机选择的人类图像放置到不同背景上创建，并配描述个体属性、相对空间位置及是否代表同一身份的文本。开放世界VQA样本则整合了多个公开数据集，增强了模型对开放世界目标的识别能力。

这种数据混合策略体现了研究团队对模型泛化能力的深刻理解。如图4所示，跟踪样本和识别样本的1:1比例经过精心设计，消融实验证明该比例能实现最佳性能。人类识别样本进一步细分为单人类、多人类和相同人类三类，分别针对不同识别场景。消融研究表明，包含随机背景对性能至关重要，移除背景会导致显著性能下降(22.9%准确率下降)。这些数据收集和构建工作不仅支持了当前研究，也为领域后续发展提供了宝贵资源。

05 实验设计与结果分析

5.1 实验设置与基准测试

论文设计了全面评估方案，涵盖公开基准Gym-UnrealCV的零样本测试和自建基准EVT-Bench的系统测试。对比基线包括三类方法：基于模型的方法IBVS、基于强化学习的方法(DiMP、SARL、AD-VAT等)和基于模仿学习的方法Uni-NaVid。评估指标采用标准成功率(SR)、平均episode长度(EL)、跟踪率(TR)和碰撞率(CR)，多维度量化算法性能。

在Gym-UnrealCV的零样本评估中(表1)，TrackVLA显著优于现有基线。在单目标和未见物体任务中，模型成功跟踪目标完成全部500步/100个episode；在更具挑战性的干扰物任务中，也超越之前最好的EVT方法(EL提高3.25%，SR提高12.3%)。这种零样本泛化能力证明了模型学习到的表征和策略具有高度普适性，无需针对特定环境进行微调即可良好运作。

在EVT-Bench上的评估结果(表2)进一步展示了TrackVLA的全面优势。模型在STT、DT和AT三个任务上均显著超越现有方法，特别是相比VLA方法Uni-NaVid展现出明显优势。值得注意的是，随着任务难度从STT增加到DT和AT，所有方法都出现性能下降，这反映了细粒度识别和干扰物排除的固有挑战。TrackVLA的相对优势在困难任务中更为明显，说明其复杂场景适应能力更强。

5.2 识别性能与实时性分析

论文还对TrackVLA的识别能力进行了专门评估(表3)。在区分SYNTH-PEDES中未见人类图像的识别任务中，TrackVLA与强基线SoM+GPT-4o性能相当，但推理速度达到10 FPS，比GPT-based基线快约100倍。消融研究表明，联合训练VQA样本带来显著提升(准确率提高29.53%)，验证了开放世界识别样本的有效性。这种高效率得益于模型设计中的多项优化：滑动窗口限制历史帧数、锚点引导减少扩散步骤、DDIM加速采样等。

实时性能是具身系统实际应用的关键考量。论文报道的10 FPS处理速度在同类VLA模型中处于领先水平，这主要归功于：1)视觉编码器参数冻结，减少计算量；2)扩散模型仅需2步去噪；3)动作模型采用轻量级DiT架构。这些优化使模型能够在NVIDIA RTX 4090 GPU上实时运行，配合四足机器人平台实现了实际场景部署。补充材料中的视频演示展示了模型在杂乱环境、低光照条件、追逃游戏和多人物识别等挑战场景中的鲁棒表现。

5.3 消融研究与设计分析

论文通过系统消融实验验证了关键设计选择。数据比例实验(图6)表明，跟踪样本与识别样本1:1比例实现最佳性能，符合平衡梯度更新的理论预期。动作模型架构比较(表4)显示，基于锚点的扩散策略在SR、TR、CR等指标上全面优于自回归、MLP和普通扩散策略，同时保持13ms的低延迟。消融研究还探讨了历史窗口长度(表10)和预测路径点数量(表11)的影响，确定32帧历史和10个路径点为最优配置。

特别有启发的发现是模型缩放规律。研究表明，扩大动作模型中DiT骨干的规模能持续提升性能，暗示了扩散变换器在动作生成任务中的良好缩放特性。这一发现为后续研究指明了方向——通过增加模型容量和训练数据规模，可能进一步提升复杂场景下的跟踪性能。同时，所有组件的高效设计保证了模型在规模扩大时仍能满足实时性要求，体现了算法设计中的效率-效果平衡思想。

06 讨论与未来方向

6.1 研究局限性与改进空间

TrackVLA当前的局限性主要体现在视觉输入和运动控制两方面。视觉方面，模型仅依赖自我中心视角(通常90度FOV)的单一RGB输入，在目标离开视野时容易跟丢。运动控制方面，当前采用路径点控制器，缺乏更灵活的局部运动控制器，限制了移动速度和可到达区域。这些局限反映了具身视觉跟踪领域的共性挑战，也是未来研究的重要方向。

从技术角度看，这些局限性主要源于任务复杂性与系统约束间的权衡。扩大视野可能引入更多计算负担，增加运动灵活性则需要更精细的动作空间设计。论文附录提到，未来计划整合全景或多视角输入增强感知鲁棒性，并加入运动原语扩展行动能力。这些改进方向既符合领域发展趋势，也切合实际应用需求，有望进一步提升系统在真实复杂场景中的表现。

6.2 理论意义与应用前景

TrackVLA研究的理论价值在于探索了感知与行动在深度学习模型中的协同机制。传统模块化设计遵循"感知-规划-行动"的流水线，而TrackVLA展示了一种端到端的替代方案，通过共享表征和联合训练实现两种能力的深度融合。这种范式受到神经科学中"active perception"(主动感知)理论的启发，认为感知与行动是相互促进的循环过程，而非单向流水线。

在应用层面，这项技术可广泛应用于服务机器人、智能监控、增强现实等领域。例如，在老年护理场景中，机器人可基于自然语言指令跟踪特定人员；在仓储物流中，自动导引车能可靠跟随目标工人。论文报道的与商用跟踪无人机(DJI Flip)的对比实验(表13)显示，TrackVLA在复杂环境和高速目标场景中优势明显，验证了其实际应用价值。随着模型轻量化和边缘计算技术的发展，这类VLA模型有望在更多终端设备上部署，拓展应用场景边界。