当前位置：首页 > news >正文

Gato：多模态、多任务、多具身的通用智能体架构

news 2025/8/16 10:32:34

本文由「大千AI助手」原创发布，专注用真话讲AI，回归技术本质。拒绝神话或妖魔化。搜索「大千AI助手」关注我，一起撕掉过度包装，学习真实的AI技术！

1. 背景与核心贡献

Gato（西班牙语“猫”）是由 DeepMind 于 2022 年提出的通用智能体框架，目标是将 语言模型的多任务泛化能力 扩展至文本之外的领域（如视觉、控制决策）。其核心突破在于：

单一 Transformer 模型 通过同一套权重（1.18B 参数）支持 604 项异构任务，涵盖图像描述生成、Atari 游戏、机械臂控制、对话交互等，首次实现“多模态-多任务-多具身（Multi-Embodiment）”的统一建模。

本文由「大千AI助手」原创发布，专注用真话讲AI，回归技术本质。拒绝神话或妖魔化。搜索「大千AI助手」关注我，一起撕掉过度包装，学习真实的AI技术！

往期文章推荐:

20.图灵测试：人工智能的“行为主义判据”与哲学争议
19.ASQA: 面向模糊性事实问题的长格式问答数据集与评估框架
18.BGE：智源研究院的通用嵌入模型家族——从文本到多模态的语义检索革命
17.BM25：概率检索框架下的经典相关性评分算法
16.TF-IDF：信息检索与文本挖掘的统计权重基石
15.HumanEval：代码生成模型的“黄金标尺”
14.稠密检索：基于神经嵌入的高效语义搜索范式
13.Haystack：面向大模型应用的模块化检索增强生成（RAG）框架
12.CodePlan：基于代码形式规划的大模型结构化推理新范式
11.CodeGen：面向多轮程序合成的开源代码大语言模型
10.束搜索（Beam Search）：原理、演进与挑战
9.RAGFoundry：面向检索增强生成的模块化增强框架
8.TyDi QA：面向语言类型多样性的信息检索问答基准
7.BBH详解:面向大模型的高阶推理评估基准与数据集分析
6.RepoCoder：仓库级代码补全的迭代检索生成框架解析与应用前沿
5.RAGAS：检索增强生成系统的无参考评估框架与技术解析
4.Self-RAG：基于自我反思的检索增强生成框架技术解析
3.DocBench：面向大模型文档阅读系统的评估基准与数据集分析
2.哲学中的主体性：历史演进、理论范式与当代重构
1.FLAN-T5：大规模指令微调的统一语言模型框架

2. 技术架构详解

2.1 多模态序列化与标记化

Gato 将所有输入输出数据统一编码为 扁平标记序列（flat token sequence），实现跨模态自回归训练：

文本：SentencePiece 子词编码（32k 词表）
图像：分割为 16×16 图块 → 像素归一化 → 线性嵌入（类似 ViT）
离散动作（如按键）：整数序列扁平化（范围 [0, 1024]）
连续动作（如关节扭矩）：μ-律编码 → 离散化为 1024 桶 → 映射至 [32000, 33024]

序列排序规范：文本按原序、图像按光栅顺序、张量按行优先、时间步按观测→分隔符→动作排列。

2.2 模型结构

骨干网络：纯解码器 Transformer（24 层，隐藏层 2048，前馈层 8196，参数量 1.18B）
嵌入层：
- 文本/动作标记：查找表 + 局部位置编码
- 图像标记：单层 ResNet 块 + 图块位置编码
训练目标：仅预测动作与文本标记（屏蔽图像与观测损失）

2.3 提示条件（Prompt Conditioning）

训练策略：25% 批次添加任务提示（50% 为目标条件序列，50% 随机片段）
推理机制：通过成功演示初始化序列，引导模型执行特定任务（如机械臂堆叠）

3. 多任务性能评估

Gato 在 604 个任务中验证通用性，关键结果如下：

表：Gato 在主要任务领域的性能

任务领域	关键指标	表现
ALE Atari	超过人类平均分的游戏数	23/51（11 款达人类水平 2 倍）
BabyAI	BossLevel 关卡专家分数	75%（对比单任务模型 77%-90%）
Meta-World	机械臂任务 >50% 专家分数的比例	44/45（35 项 >80%）
RGB Stacking	未知物体堆叠成功率	与专用模型 BC-IMP 相当
文本/图像	对话与图像描述	示例质量接近专用模型（未量化评分）

扩展性分析

模型规模效应：79M → 364M → 1.18B 参数，性能随规模单调提升
少样本微调：仅需 10 个演示片段即可恢复专家性能，100 个片段超越专家（成功率 +15%）

4. 局限性及后续演进

4.1 核心局限

训练范式：纯监督学习（行为克隆），未融合强化奖励信号
上下文长度：1024 标记限制长时序任务建模（如复杂策略规划）
模态预测限制：不生成图像标记，限制视觉创作能力

4.2 演进方向：RoboCat

2023 年 DeepMind 基于 Gato 推出 自我改进的机器人代理：

自生成数据循环：
1. 人类演示（100-1000 次） → 2. 微调衍生代理 → 3. 自动生成 10k 轨迹 → 4. 合并数据 → 5. 训练新版本
效果：新任务学习成功率从 36% → 74%，适应三指夹具等复杂具身仅需数小时

5. 行业影响与理论意义

工程价值：验证了 Transformer 统一多模态控制 的可行性，降低多任务系统部署成本
理论启示：推动 “奖励即足够”（Reward is Enough） 的 AGI 路径，证明扩展数据与模型可覆盖复杂具身任务
开源生态：非官方实现（如 OrigamiDream/gato）推动社区复现

核心论文

Reed, S., Żołna, K., Parisotto, E., et al. (2022).
A Generalist Agent.
Transactions of Machine Learning Research (TMLR).
arXiv 预印本：https://arxiv.org/abs/2205.06175
项目主页：https://www.deepmind.com/publications/a-generalist-agent