当前位置: 首页 > news >正文

Gato:多模态、多任务、多具身的通用智能体架构

本文由「大千AI助手」原创发布,专注用真话讲AI,回归技术本质。拒绝神话或妖魔化。搜索「大千AI助手」关注我,一起撕掉过度包装,学习真实的AI技术!

1. 背景与核心贡献

Gato(西班牙语“猫”)是由 DeepMind 于 2022 年提出的通用智能体框架,目标是将 语言模型的多任务泛化能力 扩展至文本之外的领域(如视觉、控制决策)。其核心突破在于:

单一 Transformer 模型 通过同一套权重(1.18B 参数)支持 604 项异构任务,涵盖图像描述生成、Atari 游戏、机械臂控制、对话交互等,首次实现“多模态-多任务-多具身(Multi-Embodiment)”的统一建模。

本文由「大千AI助手」原创发布,专注用真话讲AI,回归技术本质。拒绝神话或妖魔化。搜索「大千AI助手」关注我,一起撕掉过度包装,学习真实的AI技术!

往期文章推荐:

  • 20.图灵测试:人工智能的“行为主义判据”与哲学争议
  • 19.ASQA: 面向模糊性事实问题的长格式问答数据集与评估框架
  • 18.BGE:智源研究院的通用嵌入模型家族——从文本到多模态的语义检索革命
  • 17.BM25:概率检索框架下的经典相关性评分算法
  • 16.TF-IDF:信息检索与文本挖掘的统计权重基石
  • 15.HumanEval:代码生成模型的“黄金标尺”
  • 14.稠密检索:基于神经嵌入的高效语义搜索范式
  • 13.Haystack:面向大模型应用的模块化检索增强生成(RAG)框架
  • 12.CodePlan:基于代码形式规划的大模型结构化推理新范式
  • 11.CodeGen:面向多轮程序合成的开源代码大语言模型
  • 10.束搜索(Beam Search):原理、演进与挑战
  • 9.RAGFoundry:面向检索增强生成的模块化增强框架
  • 8.TyDi QA:面向语言类型多样性的信息检索问答基准
  • 7.BBH详解:面向大模型的高阶推理评估基准与数据集分析
  • 6.RepoCoder:仓库级代码补全的迭代检索生成框架解析与应用前沿
  • 5.RAGAS:检索增强生成系统的无参考评估框架与技术解析
  • 4.Self-RAG:基于自我反思的检索增强生成框架技术解析
  • 3.DocBench:面向大模型文档阅读系统的评估基准与数据集分析
  • 2.哲学中的主体性:历史演进、理论范式与当代重构
  • 1.FLAN-T5:大规模指令微调的统一语言模型框架
2. 技术架构详解
2.1 多模态序列化与标记化

Gato 将所有输入输出数据统一编码为 扁平标记序列(flat token sequence),实现跨模态自回归训练:

  • 文本:SentencePiece 子词编码(32k 词表)
  • 图像:分割为 16×16 图块 → 像素归一化 → 线性嵌入(类似 ViT)
  • 离散动作(如按键):整数序列扁平化(范围 [0, 1024])
  • 连续动作(如关节扭矩):μ-律编码 → 离散化为 1024 桶 → 映射至 [32000, 33024]

序列排序规范:文本按原序、图像按光栅顺序、张量按行优先、时间步按观测→分隔符→动作排列。

2.2 模型结构
  • 骨干网络:纯解码器 Transformer(24 层,隐藏层 2048,前馈层 8196,参数量 1.18B)
  • 嵌入层
    • 文本/动作标记:查找表 + 局部位置编码
    • 图像标记:单层 ResNet 块 + 图块位置编码
  • 训练目标:仅预测动作与文本标记(屏蔽图像与观测损失)
2.3 提示条件(Prompt Conditioning)
  • 训练策略:25% 批次添加任务提示(50% 为目标条件序列,50% 随机片段)
  • 推理机制:通过成功演示初始化序列,引导模型执行特定任务(如机械臂堆叠)
3. 多任务性能评估

Gato 在 604 个任务中验证通用性,关键结果如下:

表:Gato 在主要任务领域的性能
任务领域关键指标表现
ALE Atari超过人类平均分的游戏数23/51(11 款达人类水平 2 倍)
BabyAIBossLevel 关卡专家分数75%(对比单任务模型 77%-90%)
Meta-World机械臂任务 >50% 专家分数的比例44/45(35 项 >80%)
RGB Stacking未知物体堆叠成功率与专用模型 BC-IMP 相当
文本/图像对话与图像描述示例质量接近专用模型(未量化评分)
扩展性分析
  • 模型规模效应:79M → 364M → 1.18B 参数,性能随规模单调提升
  • 少样本微调:仅需 10 个演示片段即可恢复专家性能,100 个片段超越专家(成功率 +15%)
4. 局限性及后续演进
4.1 核心局限
  • 训练范式:纯监督学习(行为克隆),未融合强化奖励信号
  • 上下文长度:1024 标记限制长时序任务建模(如复杂策略规划)
  • 模态预测限制:不生成图像标记,限制视觉创作能力
4.2 演进方向:RoboCat

2023 年 DeepMind 基于 Gato 推出 自我改进的机器人代理

  • 自生成数据循环
    1. 人类演示(100-1000 次) → 2. 微调衍生代理 → 3. 自动生成 10k 轨迹 → 4. 合并数据 → 5. 训练新版本
  • 效果:新任务学习成功率从 36% → 74%,适应三指夹具等复杂具身仅需数小时
5. 行业影响与理论意义
  • 工程价值:验证了 Transformer 统一多模态控制 的可行性,降低多任务系统部署成本
  • 理论启示:推动 “奖励即足够”(Reward is Enough) 的 AGI 路径,证明扩展数据与模型可覆盖复杂具身任务
  • 开源生态:非官方实现(如 OrigamiDream/gato)推动社区复现

核心论文

Reed, S., Żołna, K., Parisotto, E., et al. (2022).
A Generalist Agent.
Transactions of Machine Learning Research (TMLR).
arXiv 预印本:https://arxiv.org/abs/2205.06175
项目主页:https://www.deepmind.com/publications/a-generalist-agent

💎 总结

Gato 通过 多模态序列化提示条件机制,首次实现了单一模型对文本、视觉、控制任务的统一建模:

  1. 架构创新:扁平标记序列 + 模态自适应嵌入,兼容异构数据输入输出;
  2. 性能突破:在 450+ 任务中超越专家水平 50%,验证通用智能体可扩展性;
  3. 生态演进:衍生模型 RoboCat 实现自我改进,推动机器人学习范式变革。

作为 多具身通用智能 的里程碑,Gato 为 AGI 的“数据-模型-硬件”协同扩展提供了实证基础,其设计理念持续影响具身智能研究(如 Google RT-2、Meta Habitat)🚀。

本文由「大千AI助手」原创发布,专注用真话讲AI,回归技术本质。拒绝神话或妖魔化。搜索「大千AI助手」关注我,一起撕掉过度包装,学习真实的AI技术!

http://www.lryc.cn/news/622096.html

相关文章:

  • Unity中 terriaria草,在摄像机拉远的时候就看不见了,该怎么解决
  • 智能家居【home assistant】(二)-集成xiaomi_home
  • C++ #if
  • 什么是合并挖矿?
  • 重新定义城市探索!如何用“城市向导”解锁旅行新体验?
  • leetcode 刷题1
  • Chrome插件开发全指南
  • 【fwk基础】repo sync报错后如何快速修改更新
  • 集成电路学习:什么是Object Detection目标检测
  • Linux学习-软件编程(进程与线程)
  • Java生态中,实现MCP(Model Context Protocol)服务端工具开发主要的两大主流框架选择
  • 从前端框架到GIS开发系列课程(25)mapbox基础介绍以及加载第三方底图高德地图的实现
  • 数据结构初阶:排序算法(二)交换排序
  • ffmpeg-调整视频分辨率
  • 计算机视觉(opencv)实战五——图像平滑处理(均值滤波、方框滤波、高斯滤波、中值滤波)附加:视频逐帧平滑处理
  • Unity中的延迟调用方法详解
  • [微服务]ELK Stack安装与配置全指南
  • STM32在使用DMA发送和接收时的模式区别
  • 机器学习之 KNN 算法学习总结
  • YTHDC1介导MAFF核输出减轻肝细胞缺血再灌注氧化应激损伤
  • exec函数族、线程
  • 新手入门Makefile:FPGA项目实战教程(二)
  • 【计算机视觉与深度学习实战】02基于形态学的权重自适应图像去噪系统
  • 大模型 + 垂直场景:搜索 / 推荐 / 营销 / 客服领域开发有哪些新玩法?
  • 短剧小程序系统开发:打造个性化娱乐新体验
  • Apache 如何支持SHTML(SSI)的配置方法
  • 告别手动优化!React Compiler 自动记忆化技术深度解析
  • Docker部署Spring Cloud微服务实战
  • vue一个超简单的菜单栏伸缩示例
  • 剧本杀小程序系统开发:重构推理娱乐生态