当前位置: 首页 > news >正文

聚焦于机器人研究,提出 FuSe 方法,通过语言锚定对通用机器人策略进行微调 视觉、触觉、听觉

聚焦于机器人研究,提出 FuSe 方法,通过语言锚定对通用机器人策略进行微调,利用多模态传感器提升性能,在多种任务中表现优异,具备跨模态推理能力。

 

  1. 研究背景:与世界交互需多感官协作,当前先进通用机器人策略多依赖视觉和本体感受数据训练,忽略其他模态信息。
  2. 方法:FuSe 利用自然语言作为跨模态锚定,结合多模态对比损失和基于感官的语言生成损失,对视觉运动通用策略在异构传感器模态上微调。多模态对比损失最大化不同模态和场景语义间互信息;多模态生成损失通过生成网络和辅助交叉熵损失,将观察嵌入与语言指令对比学习。
  3. 数据集:收集 26,866 条轨迹数据集,涵盖桌面抓取、购物袋抓取、按钮按压任务,涉及视觉、触觉、音频等多种传感器数据。
  4. 实验结果:FuSe 在所有任务环境中超越基线方法,在购物袋抓取任务提升显著。还具备简单和复杂跨模态推理能力,且适用于不同通用策略架构,如 PaliGemma - based 3B - parameter VLA 模型。
  5. 引用
http://www.lryc.cn/news/540519.html

相关文章:

  • C++ 无锁队列:原理与实现
  • web的分离不分离:前后端分离与不分离全面分析
  • MobileSal:极其高效的RGB-D显著性物体检测模型
  • 【个人总结】1. 开发基础 工作三年的嵌入式常见知识点梳理及开发技术要点(欢迎指正、补充)
  • 硬核技术组合!用 DeepSeek R1、Ollama、Docker、RAGFlow 打造专属本地知识库
  • MySQL官网驱动下载(jar包驱动和ODBC驱动)【详细教程】
  • idea 2019.3常用插件
  • 对CSS了解哪些?
  • TikTok账户安全指南:如何取消两步验证?
  • 从零到一:构建现代 React 应用的完整指南
  • 【Python爬虫(26)】Python爬虫进阶:数据清洗与预处理的魔法秘籍
  • 机器学习数学基础:28.卡方检验
  • 【工具插件类教学】实现运行时2D物体交互的利器Runtime2DTransformInteractor
  • 回调处理器
  • Redis-03高级篇中-多级缓存:
  • Spring Boot ShardingJDBC分库分表(草稿)
  • Jenkins 环境搭建---基于 Docker
  • 如何在自定义组件中使用v-model实现双向绑定
  • Ubuntu 下 nginx-1.24.0 源码分析 - ngx_pool_t 类型
  • 如何在 ubuntu 上使用 Clash 与 docker 开启代理拉起
  • linux tcpdump抓包
  • PLSQL连接Oracle 19c报错ORA-28040
  • 汽车免拆诊断案例 | 2010 款路虎揽胜车空调偶尔出风异常
  • 音视频入门基础:RTP专题(9)——FFmpeg接收RTP流的原理和内部实现
  • Nginx 安装及配置教程(Windows)【安装】
  • 《跟李沐学 AI》AlexNet论文逐段精读学习心得 | PyTorch 深度学习实战
  • 嵌入式0xDEADBEEF
  • B+树作为数据库索引结构的优势对比
  • 自适应SQL计划管理(Adaptive SQL Plan Management)在Oracle 12c中的应用
  • 什么是DeFi (去中心化金融)