当前位置: 首页 > article >正文

星动纪元的机器人大模型 VPP,泛化能力效果如何?与 VLA 技术的区别是什么?

点击上方关注 “终端研发部

设为“星标”,和你一起掌握更多数据库知识

VPP 利用了大量互联网视频数据进行训练,直接学习人类动作,减轻了对于高质量机器人真机数据的依赖,且可在不同人形机器人本体之间自如切换,这有望大大加速人形机器人的商业化落地。

在今年的 ICML 2025 中,VPP 从超 12000 篇投稿里脱颖而出,入选占比不到 2.6% 的 Spotlight 论文。

VPP 模型通过将视频扩散模型的泛化能力引入到通用机器人操作策略中,解决了以往机器人推理速度慢的问题。VPP 能够实时预测未来动作,从而极大提升机器人的策略泛化能力。值得注意的是,这一模型已在国际机器学习大会(ICML2025)上获得 Spotlight 认可,展现出其研究的前沿性和重要性。

VPP 基于 AIGC 视频扩散模型而来。如图所示,VPP 分成两阶段的学习框架,最终实现基于文本指令的视频动作生成。第一阶段利用视频扩散模型学习预测性视觉表征;第二阶段通过 Video Former 和 DiT 扩散策略进行动作学习。

VPP 的一大亮点在于其预测能力。以往机器人策略(例如:VLA 模型)往往只能根据当前观测进行动作学习,机器人策略需要先理解指令和场景,再执行。VPP 能够提前预知未来的场景,让机器人 “看着答案” 行动,大大增强泛化能力。通过该模型,机器人的执行速度能够实现 “更快一步”,在仅需150毫秒的推理时间内,预测频率达到6-10Hz,控制频率更是超过50Hz,极大提升了动作执行的流畅性。

而VLA技术更像是给AI装了驾校教练的嘴和F1赛车手的手:既能用视觉语言模型看懂红绿灯,又能用思维链推理解释"为啥要变道"——"亲,右侧车道有外卖小哥逆行,咱们怂一点"。理想汽车的实测显示,VLA能预测几十秒后的路况,比VLM模型的7秒"金鱼记忆"强出几个量级,遇到施工路段还会自动切换成"科目五:地狱级绕桩模式

核心差异:一个靠"脑补",一个靠"唠嗑"

  1. 数据维度:

  • VPP吃的是"视频自助餐",从人类做饭到工厂流水线录像都能消化,生成的动作像抖音短视频一样丝滑;

  • VLA啃的是"多模态压缩饼干",把3D点云、交规文本和人类驾驶行为压缩成32B参数的"驾驶常识"。

  • 推理逻辑:

  • VPP玩的是"单帧剧透"——扩散模型中间层抽一帧就能预测整套动作,比追剧时看缩略图猜结局还快;

  • VLA搞的是"思维链话疗"——先用CoT推理出"前车可能要加塞",再决定是"礼让"还是"反手一个举报"。

  • 应用场景:

  • VPP在工厂里当"跨工种临时工",今天用机械臂拧螺丝,明天换双足机器人搬货架;

  • VLA在高速上化身"电子路怒症患者",边超车边给你播报《防御性驾驶十大准则》

VPP像体育生——靠肌肉记忆完成高难度动作;VLA像文科生——不仅要会开车,还得写篇《论安全变道的社会学意义》。至于谁更胜一筹?看看你家扫地机器人是默默干活(VPP流),还是突然问你"要不要顺路丢垃圾"(VLA流)就知道了

http://www.lryc.cn/news/2398227.html

相关文章:

  • 4000万日订单背后,饿了么再掀即时零售的“效率革命”
  • 入门AJAX——XMLHttpRequest(Get)
  • 5分钟申请edu邮箱【方案本周有效】
  • 闲谈PMIC和SBC
  • Java垃圾回收机制深度解析:从理论到实践的全方位指南
  • Ubuntu系统 | 本地部署ollama+deepseek
  • 论文阅读:CLIP:Learning Transferable Visual Models From Natural Language Supervision
  • 在图像分析算法部署中应对流行趋势的变化|文献速递-深度学习医疗AI最新文献
  • CAMEL-AI开源自动化任务执行助手OWL一键整合包下载
  • Selenium 中 JavaScript 点击的优势及使用场景
  • Linux系统-基本指令(5)
  • C++ set数据插入、set数据查找、set数据删除、set数据统计、set排序规则、代码练习1、2
  • [android]MT6835 Android 指令启动MT6631 wifi操作说明
  • C# winform教程(二)
  • Java详解LeetCode 热题 100(25):LeetCode 141. 环形链表(Linked List Cycle)详解
  • 【仿生机器人】刀剑神域计划——仿生机器人.亚丝娜
  • ARM架构推理Stable Diffusiond
  • 仓颉项目调试配置与多文件场景下的问题解析
  • Easyui悬停组件
  • MySQL 8.0 OCP 英文题库解析(十)
  • Python Pytest
  • 金属膜电阻和碳膜电阻
  • DNS (Domain Name System) 域名系统 将域名解析为 IP 地址
  • 如何轻松删除 Android 上的文件(3 种方法)
  • [特殊字符] Unity UI 性能优化终极指南 — ScrollRect篇
  • 自适应流量调度用于遥操作:面向时间敏感网络的通信与控制协同优化框架
  • 阿里云服务器-解决宝塔登录不成功
  • 6.3 day 35
  • graphviz, dot, Error: lost rA sA edge; 独立的模块
  • MicroROS简述