MCP + LLM + Agent 8大架构:Agent能力、系统架构及技术实践
来源:智能体AI、腾讯云开发者
Agent能力概述
Agent的能力主要可以分为以下几个部分:
-
算力;
-
知识记忆;
-
预测功能;
-
动作执行。
知识记忆 (Memory and Knowledge)
Agent的大脑负责记忆和知识的获取。知识记忆通常通过微调训练或者特定方案(如RAG的方案)来实现。这些方法使Agent能够在不同情况下调用相关知识。
预测功能
对于预测任务,Agent可以将图像、多模态数据等转换成文本形式,然后进行预测。这种转换使得Agent在处理不同类型的数据时更加灵活和高效。
动作执行 (Action)
动作执行是通过工具能力来实现的,例如API调用、SQL调用以及机械手的操作等。这些调用都属于Agent的动作执行部分。具体来说,工具能力主要分为以下几种:
-
API调用
-
SQL调用
-
机械手操作
-
...
工具能力
在工具能力方面,举一个例子,主要是通过 ReAct 的方案来实现API调用和搜索。这些都属于工具能力的一部分。
MCP (万能插口):MCP的概念可以理解为一个万能的插口。目前,所有的工具调用都可能各自有各自的沙箱板,而MCP则作为一个通用接口,使得所有工具都能插上去,从而提高了兼容性和灵活性。
RAG (知识补充):RAG的概念是一个知识补充机制,用于增强Agent的知识库。
当前的Agent通过整合计算能力、知识记忆、预测功能和动作执行等多个方面,能够高效地与外部用户进行交互,并完成复杂的任务。这些能力的实现依赖于各种工具和接口的使用,例如API调用、SQL调用和机械手操作等。通过MCP和Read等机制,Agent能够更加灵活地调用和补充知识,从而提升整体性能。
Agent实践
已有不少Agent开源项目,通过项目实践可加深对Agent理解。Agent实践分为两种类型:自主智能体和生成智能体。
自主智能与生成智能
自主智能体:自主执行任务、做出决策和与环境互动的智能系统。生成智能体:利用生成模型来创造新的数据或内容的智能系统。如图所示,Auto-GPT(自主智能)自问自答,斯坦福小镇虚拟世界(生成智能)。
自主智能体与生成智能体的区别:
Agent核心框架
成熟的Agent框架可降低开发成本,MetaGPT和AutoGen是当前最流行的两个框架。MetaGPT通过为GPT模型分配不同角色来模拟协作的软件公司结构,以处理复杂任务;AutoGen作为开源框架,专注于通过多智能体对话和增强的LLM推理开发大型语言模型应用。
MetaGPT与AutoGen对比
MetaGPT和AutoGen各有特点,MetaGPT:软件公司的“数字CTO”;AutoGen:定制化AI的“乐高工厂。MetaGPT更适合需要全面自动化和协作的软件开发任务,而AutoGen更适合需要灵活定制和对话的LLM应用开发。
Multi-Agent系统
现实世界任务往往过于复杂,单Agent难以胜任,需要多个Agent协作。以漫画图所示,从一个需求到最终交付的产品。首先:计划、需求分析、框架设计、系统方案、编码实现、功能性测试,最后是产品交付。如此复杂的系统需要多人合作,Multi-Agent系统在处理复杂任务方面具有显著优势。
单智能体与多智能体,无论在任务类型与核心技术都存在明显差别。
单智能体与多智能体对比
主流智能体框架技术剖析
LangChain:基于图的工作流编排:
LangChain作为最早获得广泛应用的智能体框架之一,提供了模块化的组件来构建基于语言模型的应用。它具有丰富的工具和抽象,让开发者能够设计具有复杂推理能力、任务执行能力以及与外部数据源和API交互能力的强大AI智能体。LangChain解决了LLM在保持上下文、整合外部信息和协调多步骤项目等方面的挑战。 LangGraph则是LangChain的扩展,专注于构建有状态的多参与者应用。与其名称所示,LangGraph将图架构作为定义和编排智能体工作流的最佳方式。每个节点代表特定任务或功能,边表示这些任务之间的转换。这种基于图的方法提供了对应用流程和状态的精细控制,特别适合需要高级内存功能、错误恢复和人机协作交互的复杂工作流。
LangGraph的主要特点
✦ 无缝集成LangChain生态系统
✦ 支持工具调用和记忆功能
✦ 基于图的工作流可视化
✦ 强大的状态管理能力
"LangGraph在处理复杂、多步骤工作流方面表现出色,特别是当智能体交互的顺序和流程至关重要时。"
AutoGen:基于会话的多智能体协作
AutoGen是由微软开发的一个多功能框架,用于构建会话式智能体。它将工作流视为智能体之间的对话,对于偏好交互式ChatGPT类界面的用户来说,这种方式非常直观。AutoGen的设计哲学是将复杂任务分解为多个智能体之间的自然对话,每个智能体都有特定的角色和能力。
AutoGen主要特点
✦ 将工作流视为智能体之间的对话
✦ 支持各种工具,包括代码执行器
✦ 模块化设计便于集成新工具
✦ 强大的多智能体交互能力
✦ 适合企业环境的可靠性和高级错误处理功能
CrewAI:基于角色的团队协作模式
CrewAI可能是最容易上手的框架,拥有出色的文档、大量示例和强大的社区支持。CrewAI采用基于角色的方法来构建多智能体系统,使智能体协作更加自然和直观。
MCP技术生态
随着Manus的发布,MCP协议得以快速普及,MCP应用、MCP Server服务以及MCP应用市场的蓬勃发展,使得MCP技术生态迅速繁荣起来。
Agent系统架构
AI Agent作为企业内部的“智能大脑”,承担起理解问题、调度知识、生成答案、可视化呈现的全链条职责。那么,一个真正可落地的AI Agent系统到底应该长成什么样?它是怎么一步步将数据变成洞见,又是如何实现对业务场景的深度理解?今天这篇文章,我们就结合一张经典的AI Agent系统架构图,逐层拆解、深度解析,一次性讲透整个智能问数平台的全貌。
一、数据源:智能大脑的“知识血液”
一个聪明的Agent,首先要有丰富的“知识来源”,而知识的第一站就是数据源。
1.1 DaaS与数据仓库:结构化数据的高效输入口
-
DaaS(Data as a Service) 是一种服务化数据能力,它通过标准化API接口将第三方权威数据源(如金融市场数据、行业统计指标、政府数据库)接入平台,为系统注入权威性与时效性。
-
数据仓库 则是企业内部结构化数据的集散地,包括订单、交易、用户行为、财务、库存等核心业务数据。通过语义建模(后面章节会详细讲),这些数据可以被自然语言“无障碍”地提问。
举个例子,如果用户问:“2025年Q1公司营业收入同比增长是多少?”Agent可以自动匹配数据仓库中的收入表、时间字段、同比逻辑,完成分析。
1.2 专业公众号、交易中心、权威网站:非结构化数据的“野外资源”
结构化数据只占企业可用信息的一小部分,真正的洞察往往藏在“非结构化”的内容里:
-
专业公众号 文章中蕴含着行业洞察与案例分析;
-
各省交易中心官网 发布最新的政策变动、交易规则;
-
其他权威网站 则提供政策原文、官方数据解读等资料。
通过 爬虫(Crawler)机制,平台可以定期抓取、去重、清洗、存档这些非结构化信息,最终统一汇入RAG知识库,供后续智能问答调用。
二、MCP(模型上下文协议):多模型协作的神经中枢
进入数据服务层,AI Agent最强大的“大脑指令系统”便是 MCP——Model Context Protocol(模型上下文协议)。
2.1 什么是MCP?
MCP的核心使命是 协调人与多模型系统之间的对话上下文与调用流程。它就像一个训练有素的“指挥官”:
-
监听用户请求;
-
理解问题上下文;
-
识别是否需要结构化数据、非结构化信息、还是混合型回答;
-
分发给最合适的模型或服务。
MCP不仅仅是一个接口协议,更是一种工作机制、一种标准化的模型治理方式。
2.2 智能问数:MCP的第一个落地场景
当用户提问“近3年某省农产品交易额环比变化趋势”,MCP会完成以下工作:
-
首先识别关键词:“农产品”“交易额”“近3年”“某省”;
-
调用语义解析模块,将问题转为结构化查询任务;
-
接入数据库查询或调用 DB-GPT 生成SQL语句;
-
返回结构化答案并格式化。
这就是“智能问数”的全过程——无需写代码,无需懂SQL,一句话提问,系统直接返图、返表、返洞见。
三、RAG策略库:智能生成的知识后盾
对结构化数据有“智能问数”,那么对于文本型知识怎么办?答案是——RAG。
3.1 什么是RAG?
RAG(Retrieval-Augmented Generation) 是一种“检索+生成”混合模型:
-
它先通过向量检索找出与问题相关的文档段落;
-
然后再交由大模型生成更加简洁准确的回答。
3.2 Dify与RagFlow:RAG能力的双引擎
-
Dify 提供RAG中前段的文档检索与片段选择;
-
RagFlow 控制生成逻辑,比如是否引用原文、是否进行二次归纳、是否添加图表建议等。
而且,这些模块都由MCP统一编排调度,让整个RAG流程可以与结构化查询共同响应,真正做到了 “混合式问答”能力闭环。
四、底层能力:Embedding、ReRank与多模态适配
要让RAG工作得好,少不了强大的底层支撑能力:
-
Embedding(向量化):将所有文档片段、高频问题、知识点转化为高维语义向量;
-
ReRank(重排序):通过打分机制,对检索结果再次过滤排序,确保答案相关且精确;
-
DeepSeek(V3) 与 通义千问(Max):分别提供向量搜索和中文语义优化支持。
这些组件确保了从知识检索到问答生成的质量,为Agent提供了真实可用的“认知基础设施”。
五、业务智能Agent:AI驱动的“决策助手”
现在,让我们走进整个系统的“灵魂”——业务智能Agent模块。
5.1 LangChain + LangGraph:流程调度与知识图谱推理
-
LangChain:用于编排多步对话流程、模型调用、决策树分支,让一个提问可以串联多个模型或服务;
-
LangGraph:构建语义图谱,理清实体之间的关联,支持深层级、多跳推理(如判断因果、前提、归属等关系)。
5.2 DB-GPT:结构化问题的处理专家
-
当问题需要查表、算同比、画趋势时,DB-GPT 就会被唤起;
-
它能根据自然语言直接生成SQL并返回图表数据,彻底解放业务分析师的“SQL焦虑”。
这个模块共同构成了一个可对话、可分析、可追问的“智能体”。
六、可视化与用户交互:数据的“展示艺术家”
当数据被“理解”,知识被“归纳”,答案被“生成”之后,如何优雅地“呈现”给用户?这就进入了最后一环——用户界面层。
6.1 AI Visualization(AG-UI):图表配置即服务
-
不懂可视化?没关系;
-
拖拖拽拽即可生成折线图、饼图、热力图;
-
支持自定义颜色、标签、维度,甚至可以自动建议最佳图表类型。
6.2 GPT-Vis:全场景嵌入式问答组件
-
支持通过HTTPS API将AI问答结果嵌入到企业门户、工作平台、甚至微信公众号;
-
用户只需在原有页面提问,系统自动弹出图表或答案,不打断原有业务流程。
七、总结
一个真正智能的Agent是如何炼成的?从“数据源”打通,到“MCP协议”协调,再到“智能检索”与“业务推理”,最后到“交互呈现”,我们看到了AI Agent架构的五大关键词:数据连接 → 语义建模 → 模型编排 → 策略检索 → 智能问答 → 可视化交互。Agent作为整套系统的调度核心,就像是连接所有模块的“大脑皮层”,让系统既有思考力,又有行动力。如果你也在打造企业级智能问答、AI中台或RAG系统,这张架构图值得你反复研究。未来AI智能体的战场,不只是参数和算力,更是架构与协作的深度融合。
#智能体开发 #智能体框架 #MCP
推荐书籍:
《分布式商业生态战略:数字商业新逻辑与企业数字化转型新策略》
作者:思二勋
书籍介绍:
本书从新时代的新市场和新趋势出发,以企业数字化转型为核心,以区块链等数字化技术为基本点,以场景为基本面,勾勒了数字化时代分布式商业演化的新趋势,以及其对企业经营管理的影响,提出了数字化时代企业数字化转型的新策略和分布式经营管理的低成本、高效率发展方案。
分布式商业是数字经济时代的基本商业形态,分布式商业生态战略也是企业数字化生存与发展的基本战略,是企业数字化转型的全新模式和路径,亦是元宇宙商业生态建设的新范式。