当前位置：首页 > news >正文

季逸超：Manus的上下文工程启示

news 2025/7/27 10:56:21

模型或许正变得更强大、快速、廉价，但任何原始能力都无法替代记忆、环境与反馈。塑造上下文的方式，最终决定了智能体的行为模式：它的执行速度、容错能力与扩展边界。
——Manus首席科学家季逸超

项目启动之初，团队面临关键抉择：是基于开源模型训练一个端到端的智能体模型，还是在尖端模型能力之上构建智能体？

回溯我从事NLP的第一个十年（是的，那已是七年前），我们根本没有这样的选择余地。在BERT时代（2018年），模型必须经过微调和评估才能迁移到新任务。每次迭代常耗时数周——尽管当时的模型比如今的大语言模型（LLM）小巧得多。对于快速迭代的应用（尤其是未达成产品市场契合的阶段），如此缓慢的反馈循环是致命伤。这来自我上段创业经历的惨痛教训：当时我为语义搜索从头训练模型，而GPT-3和Claude的横空出世让自研模型一夜过时。颇具讽刺的是，正是这些模型开启了上下文学习的新纪元。

这份教训让选择变得清晰：Manus将押注上下文工程。这使我们能在数小时内（而非数周）实现改进，并让产品与底层模型解耦——若将模型进步比作涨潮，我们要做随潮涨落的船，而非扎根海底的桩柱。

然而上下文工程远非坦途。作为一门实验科学，我们已四次重构智能体框架，每次皆因发现更优的上下文塑造方法。我们戏称这种架构搜索、提示词调试与经验猜测的手动过程为"随机研究生下降法"（Stochastic Graduate Descent）。虽不优雅，但切实有效。本文分享了我们通过这套"SGD"获得的局部最优解。若您正在构建AI智能体，望这些原则助您更快收敛。

围绕KV缓存设计

若智能选择一个指标，KV缓存命中率堪称生产级AI智能体的核心指标，它直接影响延迟与成本。以Manus运行为例：

用户输入后，智能体通过工具链执行任务。每轮迭代中，模型基于当前上下文从预设动作空间选择一个动作，在环境（如Manus虚拟机沙盒）执行后生成观察结果。动作与观察结果追加至上下文，构成下一轮输入，循环直至任务完成。

可想而知，上下文持续增长而输出（通常是结构化函数调用）保持简短，导致智能体的输入输出token比率远高于聊天机器人。Manus的输入/输出token比约为100:1。幸运的是，相同前缀的上下文可利用KV缓存——无论使用自托管模型或调用推理API，都能显著降低首token延迟（TTFT）与推理成本。节省绝非微量：以Claude Sonnet为例，缓存输入成本0.30美元/百万token，未缓存则需3美元，相差十倍。

从上下文工程角度，提升KV缓存命中率需遵循：

保持提示前缀稳定：因LLM的自回归特性，单token差异即可使后续缓存失效。常见错误是在系统提示开头添加时间戳（尤其是精确至秒级），虽可让模型返回当前时间，却会摧毁缓存命中率。
上下文仅追加不修改：避免改动历史动作或观察结果，确保序列化具有确定性。多数编程语言和库在序列化JSON时无法保证键的顺序稳定，可能悄无声息的破坏缓存。
显式标记缓存断点：部分模型服务商或推理框架不支持自动增量前缀缓存，需手动插入缓存断点。设置时需考虑缓存过期风险，至少确保断点包含系统提示结尾。
启用缓存功能：若使用vLLM等框架自托管模型，请启用增量缓存，并采用会话ID等技术在分布式节点间保持请求一致。

屏蔽而非移除

随着智能体能力扩展，其动作空间必然复杂化——工具数量将爆发式增长。OpenAI函数调用的流行更助长此势。若允许用户配置工具，总有人将数百个神秘工具接入您精心设计的动作空间，导致模型误选操作或采取低效路径。简言之：全副武装的智能体反而变笨了。

本能反应是设计动态动作空间（如通过插件机制按需加载工具）。Manus曾尝试此方案，但实验表明：非必要时应避免在迭代中动态增删工具。原因有二：

多数LLM中，工具定义位于上下文前端（系统提示前后），任何改动将使后续动作与观察结果的KV缓存失效。
当历史动作仍引用已移除工具时，若无JSON Schema校验，模型将产生模式冲突或幻觉操作。

为解决这一问题，Manus采用上下文感知的屏蔽机制管理工具可用性：我们不移除工具，而是通过解码时屏蔽token logits，基于当前上下文禁止或强制选择特定动作。

实践中，多数模型服务商和推理框架支持某种形式的响应预填充，可在不修改工具定义的情况下约束动作空间。以NousResearch的工具调用为例，通常有三种模式：

自动模式：模型可自由选择是否调用函数。实现方式：仅预填充回复前缀 <|im_start|>assistant
必须模式：模型必须调用函数但选择不受限制。实现方式：预填充至工具调用token <|im_start|>assistant<tool_call>
指定模式：模型必须调用特定子集函数。实现方式：预填充至函数名开头<|im_start|>assistant<tool_call>{"name": "browser_

基于此，我们通过屏蔽token logits直接约束动作选择。例如用户输入新内容时，Manus必须立即回复而非执行操作。我们还刻意设计带一致前缀的动作名（如浏览器工具均以browser_开头，命令行工具以shell_开头），无需状态化logits处理器即可确保智能体在特定状态下仅选择某类工具。这些设计保障了Manus智能体循环在模型驱动架构下的稳定性。