当前位置：首页 > news >正文

MCP + LLM + Agent 8大架构：Agent能力、系统架构及技术实践

news 2025/7/28 6:04:34

来源：智能体AI、腾讯云开发者

Agent能力概述

Agent的能力主要可以分为以下几个部分：

算力；
知识记忆；
预测功能；
动作执行。

知识记忆 (Memory and Knowledge)

Agent的大脑负责记忆和知识的获取。知识记忆通常通过微调训练或者特定方案（如RAG的方案）来实现。这些方法使Agent能够在不同情况下调用相关知识。

预测功能

对于预测任务，Agent可以将图像、多模态数据等转换成文本形式，然后进行预测。这种转换使得Agent在处理不同类型的数据时更加灵活和高效。

动作执行 (Action)

动作执行是通过工具能力来实现的，例如API调用、SQL调用以及机械手的操作等。这些调用都属于Agent的动作执行部分。具体来说，工具能力主要分为以下几种：

API调用
SQL调用
机械手操作
...

工具能力

在工具能力方面，举一个例子，主要是通过 ReAct 的方案来实现API调用和搜索。这些都属于工具能力的一部分。

MCP (万能插口)：MCP的概念可以理解为一个万能的插口。目前，所有的工具调用都可能各自有各自的沙箱板，而MCP则作为一个通用接口，使得所有工具都能插上去，从而提高了兼容性和灵活性。

RAG (知识补充)：RAG的概念是一个知识补充机制，用于增强Agent的知识库。

当前的Agent通过整合计算能力、知识记忆、预测功能和动作执行等多个方面，能够高效地与外部用户进行交互，并完成复杂的任务。这些能力的实现依赖于各种工具和接口的使用，例如API调用、SQL调用和机械手操作等。通过MCP和Read等机制，Agent能够更加灵活地调用和补充知识，从而提升整体性能。

Agent实践

已有不少Agent开源项目，通过项目实践可加深对Agent理解。Agent实践分为两种类型：自主智能体和生成智能体。

自主智能与生成智能

自主智能体：自主执行任务、做出决策和与环境互动的智能系统。生成智能体：利用生成模型来创造新的数据或内容的智能系统。如图所示，Auto-GPT（自主智能）自问自答，斯坦福小镇虚拟世界（生成智能）。

自主智能体与生成智能体的区别：

Agent核心框架

成熟的Agent框架可降低开发成本，MetaGPT和AutoGen是当前最流行的两个框架。MetaGPT通过为GPT模型分配不同角色来模拟协作的软件公司结构，以处理复杂任务；AutoGen作为开源框架，专注于通过多智能体对话和增强的LLM推理开发大型语言模型应用。

MetaGPT与AutoGen对比

MetaGPT和AutoGen各有特点，MetaGPT：软件公司的“数字CTO”；AutoGen：定制化AI的“乐高工厂。MetaGPT更适合需要全面自动化和协作的软件开发任务，而AutoGen更适合需要灵活定制和对话的LLM应用开发。

Multi-Agent系统

现实世界任务往往过于复杂，单Agent难以胜任，需要多个Agent协作。以漫画图所示，从一个需求到最终交付的产品。首先：计划、需求分析、框架设计、系统方案、编码实现、功能性测试，最后是产品交付。如此复杂的系统需要多人合作，Multi-Agent系统在处理复杂任务方面具有显著优势。

单智能体与多智能体，无论在任务类型与核心技术都存在明显差别。

单智能体与多智能体对比

主流智能体框架技术剖析

LangChain：基于图的工作流编排：

LangChain作为最早获得广泛应用的智能体框架之一，提供了模块化的组件来构建基于语言模型的应用。它具有丰富的工具和抽象，让开发者能够设计具有复杂推理能力、任务执行能力以及与外部数据源和API交互能力的强大AI智能体。LangChain解决了LLM在保持上下文、整合外部信息和协调多步骤项目等方面的挑战。 LangGraph则是LangChain的扩展，专注于构建有状态的多参与者应用。与其名称所示，LangGraph将图架构作为定义和编排智能体工作流的最佳方式。每个节点代表特定任务或功能，边表示这些任务之间的转换。这种基于图的方法提供了对应用流程和状态的精细控制，特别适合需要高级内存功能、错误恢复和人机协作交互的复杂工作流。

LangGraph的主要特点

✦ 无缝集成LangChain生态系统

✦ 支持工具调用和记忆功能

✦ 基于图的工作流可视化

✦ 强大的状态管理能力

"LangGraph在处理复杂、多步骤工作流方面表现出色，特别是当智能体交互的顺序和流程至关重要时。"

AutoGen：基于会话的多智能体协作

AutoGen是由微软开发的一个多功能框架，用于构建会话式智能体。它将工作流视为智能体之间的对话，对于偏好交互式ChatGPT类界面的用户来说，这种方式非常直观。AutoGen的设计哲学是将复杂任务分解为多个智能体之间的自然对话，每个智能体都有特定的角色和能力。

AutoGen主要特点

✦ 将工作流视为智能体之间的对话

✦ 支持各种工具，包括代码执行器

✦ 模块化设计便于集成新工具

✦ 强大的多智能体交互能力

✦ 适合企业环境的可靠性和高级错误处理功能

CrewAI：基于角色的团队协作模式

CrewAI可能是最容易上手的框架，拥有出色的文档、大量示例和强大的社区支持。CrewAI采用基于角色的方法来构建多智能体系统，使智能体协作更加自然和直观。

MCP技术生态

随着Manus的发布，MCP协议得以快速普及，MCP应用、MCP Server服务以及MCP应用市场的蓬勃发展，使得MCP技术生态迅速繁荣起来。

Agent系统架构

AI Agent作为企业内部的“智能大脑”，承担起理解问题、调度知识、生成答案、可视化呈现的全链条职责。那么，一个真正可落地的AI Agent系统到底应该长成什么样？它是怎么一步步将数据变成洞见，又是如何实现对业务场景的深度理解？今天这篇文章，我们就结合一张经典的AI Agent系统架构图，逐层拆解、深度解析，一次性讲透整个智能问数平台的全貌。

一、数据源：智能大脑的“知识血液”

一个聪明的Agent，首先要有丰富的“知识来源”，而知识的第一站就是数据源。

1.1 DaaS与数据仓库：结构化数据的高效输入口

DaaS（Data as a Service） 是一种服务化数据能力，它通过标准化API接口将第三方权威数据源（如金融市场数据、行业统计指标、政府数据库）接入平台，为系统注入权威性与时效性。
数据仓库 则是企业内部结构化数据的集散地，包括订单、交易、用户行为、财务、库存等核心业务数据。通过语义建模（后面章节会详细讲），这些数据可以被自然语言“无障碍”地提问。

举个例子，如果用户问：“2025年Q1公司营业收入同比增长是多少？”Agent可以自动匹配数据仓库中的收入表、时间字段、同比逻辑，完成分析。

1.2 专业公众号、交易中心、权威网站：非结构化数据的“野外资源”

结构化数据只占企业可用信息的一小部分，真正的洞察往往藏在“非结构化”的内容里：

专业公众号 文章中蕴含着行业洞察与案例分析；
各省交易中心官网 发布最新的政策变动、交易规则；
其他权威网站 则提供政策原文、官方数据解读等资料。

通过爬虫（Crawler）机制，平台可以定期抓取、去重、清洗、存档这些非结构化信息，最终统一汇入RAG知识库，供后续智能问答调用。

二、MCP（模型上下文协议）：多模型协作的神经中枢

进入数据服务层，AI Agent最强大的“大脑指令系统”便是 MCP——Model Context Protocol（模型上下文协议）。

2.1 什么是MCP？

MCP的核心使命是协调人与多模型系统之间的对话上下文与调用流程。它就像一个训练有素的“指挥官”：

监听用户请求；
理解问题上下文；
识别是否需要结构化数据、非结构化信息、还是混合型回答；
分发给最合适的模型或服务。

MCP不仅仅是一个接口协议，更是一种工作机制、一种标准化的模型治理方式。

2.2 智能问数：MCP的第一个落地场景

当用户提问“近3年某省农产品交易额环比变化趋势”，MCP会完成以下工作：

首先识别关键词：“农产品”“交易额”“近3年”“某省”；
调用语义解析模块，将问题转为结构化查询任务；
接入数据库查询或调用 DB-GPT 生成SQL语句；
返回结构化答案并格式化。

这就是“智能问数”的全过程——无需写代码，无需懂SQL，一句话提问，系统直接返图、返表、返洞见。

三、RAG策略库：智能生成的知识后盾

对结构化数据有“智能问数”，那么对于文本型知识怎么办？答案是——RAG。

3.1 什么是RAG？

RAG（Retrieval-Augmented Generation）是一种“检索+生成”混合模型：

它先通过向量检索找出与问题相关的文档段落；
然后再交由大模型生成更加简洁准确的回答。

3.2 Dify与RagFlow：RAG能力的双引擎

Dify 提供RAG中前段的文档检索与片段选择；
RagFlow 控制生成逻辑，比如是否引用原文、是否进行二次归纳、是否添加图表建议等。

而且，这些模块都由MCP统一编排调度，让整个RAG流程可以与结构化查询共同响应，真正做到了 “混合式问答”能力闭环。

四、底层能力：Embedding、ReRank与多模态适配

要让RAG工作得好，少不了强大的底层支撑能力：

Embedding（向量化）：将所有文档片段、高频问题、知识点转化为高维语义向量；
ReRank（重排序）：通过打分机制，对检索结果再次过滤排序，确保答案相关且精确；
DeepSeek（V3）与通义千问（Max）：分别提供向量搜索和中文语义优化支持。

这些组件确保了从知识检索到问答生成的质量，为Agent提供了真实可用的“认知基础设施”。

五、业务智能Agent：AI驱动的“决策助手”

现在，让我们走进整个系统的“灵魂”——业务智能Agent模块。

5.1 LangChain + LangGraph：流程调度与知识图谱推理

LangChain：用于编排多步对话流程、模型调用、决策树分支，让一个提问可以串联多个模型或服务；
LangGraph：构建语义图谱，理清实体之间的关联，支持深层级、多跳推理（如判断因果、前提、归属等关系）。

5.2 DB-GPT：结构化问题的处理专家

当问题需要查表、算同比、画趋势时，DB-GPT 就会被唤起；
它能根据自然语言直接生成SQL并返回图表数据，彻底解放业务分析师的“SQL焦虑”。

这个模块共同构成了一个可对话、可分析、可追问的“智能体”。

六、可视化与用户交互：数据的“展示艺术家”

当数据被“理解”，知识被“归纳”，答案被“生成”之后，如何优雅地“呈现”给用户？这就进入了最后一环——用户界面层。

6.1 AI Visualization（AG-UI）：图表配置即服务

不懂可视化？没关系；
拖拖拽拽即可生成折线图、饼图、热力图；
支持自定义颜色、标签、维度，甚至可以自动建议最佳图表类型。

6.2 GPT-Vis：全场景嵌入式问答组件

支持通过HTTPS API将AI问答结果嵌入到企业门户、工作平台、甚至微信公众号；
用户只需在原有页面提问，系统自动弹出图表或答案，不打断原有业务流程。

七、总结

一个真正智能的Agent是如何炼成的？从“数据源”打通，到“MCP协议”协调，再到“智能检索”与“业务推理”，最后到“交互呈现”，我们看到了AI Agent架构的五大关键词：数据连接 → 语义建模 → 模型编排 → 策略检索 → 智能问答 → 可视化交互。Agent作为整套系统的调度核心，就像是连接所有模块的“大脑皮层”，让系统既有思考力，又有行动力。如果你也在打造企业级智能问答、AI中台或RAG系统，这张架构图值得你反复研究。未来AI智能体的战场，不只是参数和算力，更是架构与协作的深度融合。

#智能体开发 #智能体框架 #MCP