当前位置：首页 > news >正文

读书笔记：《动手做AI Agent》

news 2025/7/19 15:01:13

《动手做AI Agent》黄佳著

个人理解：
- 认识和学习AIGC
- 理解提示词的建构和使用
- 使用Agent和Template
- 提供了详细的代码样例，但个人未深入代码研究
- 将AI Agent作为工具，辅助和协助个人工作
- 公开课：使用langchain进行大规模开发

人工智能AI：存储、计算、自我学习；稳定性、可靠性、伦理及隐私问题
生成工人工智能 Generative AI，GenAI：数据、算力、算法
人工智能生成内容AIGC，AI Generated Content
通用人工智能：artificial general intelligence，AGI
大语言模型 large language model, LLM
检索增强生成 RGA，检索和整合信息以及生成文本的能力；结合检索和生成的NLP模型；结合信息检索和文本生成的方法
智能体 Agent：能自主操作和做出决策的系统；接受清晰、明确的指令（有效提示词工程）；不仅是内容生成，还能整合LLM、big data，从而执行各种任务，完成不同工作；
大模型微调 finning LLM
提示词工程 prompt engineeing
思维链 chain of thought, COT
推理并行动 ReAct，reasoning and acting
问题解决 problem decomposition
具身智能 embodied intelligence；理解所处环境，并能进行有效物理交互
PDDL，planning demain definition language
Token，令牌，子词；大模型将文本拆分成token进行训练和推理，用来衡量API使用量（英语中1000个token相当于750个单词）
langchain / liamaindex / open API

工具，聊天机器人，协同工作，agent，智能
生命是一个自我复制的信息系统，而信息是塑造这个处理系统的行为和结构的力量
一切反应用演变自然选择驱动
不仅可以设计自己的软件，还能根据需要改造自己的硬件
Agent：智能体或智能代理，具有一定程度自主性的人工智能系统；能够感知环境（接受来自环境的信息），做出决策并采取行动的系统（无法解决超出知识库记录的任何问题，但可以一本正经的胡说八道，AI幻觉）；
代理：有意识行动的表现，指有欲望、信念、意图和行动能力的实体
Agent能根据当前任务和环境条件选择最合适的工具，包括分析任务需求，评估可用工具性能，预测工具使用的潜在结果
元学习：专注学习如何学习，利用已获得的一般知识和策略，减少对大量样本的依赖
通用推理能力，反馈学习，从静态执行者向动态决策者；当遇到新的场景或需要特定领域信息时，可以依赖广阔的知识基础来有效的导航和响应
泛化：模型对未见过的数据做出准确预测或合理反应的能力，自我学习能力
语言交互，理解指令、提出问题、表达观点和情感、进行复杂对话
替人类做一些简单、无聊的例行工作，转向协助处理重复性工作
AI与现有业务紧密结合，本质在于替代或增强人类的工作
多agent协作，每个agent专注某个特定领域或任务

Agent架构：规划planning（子目标分解 subgoal decomposition，连续思考即思维链，自我反思和批评 self critics，对过去行动的反思 reflection）
记忆 memory，工具 tools，执行 action
规划、工具、记忆、执行
结构化和分步方法：接收任务 task receiving
记忆更新 memory update
记忆检索 memory retrieval
任务规划 task plan
工具执行 tool execution（外部工具调用）
总结 concluding
自我反思：ReAct模型与环境交互
Reflexion动态记忆和自我反思，回顾过去提高推理
CoH，chain of hindsight，反馈输出改进自己
多样化数据集上的广泛预训练，通过调用和利用工具提升能力和效率
推理引擎，React框架：围绕理解和回应用户输入为基本思路，让大模型收到任务后进行思考，然后决定采取的行动，如何从感知的环境中抽取信息，规划任务，利用过去经验，调用工作
核心是将推理与行动紧密结合，在动态和不确定的环境中，有效的决策需要持续的学习和适应，快速将推理转化为行动
观察，思考，行动，再观察
提示词工程 prompt engineering：设计和优化输入以指导大模型产生特定输出的方法
创造性的构建、测试和优化用于大模型的提示，包括问题、陈述或指令，引导大模型提供所需信息（文本选择，格式，风格，上下文提示），以更快理解问题本质
提示词模板 prompt template：一个带有输入变量和模板字符串的结构，用于生成文本提示，使用特定格式回答问题
input_variables，变量列表，提示时以实际数据替换
template，定义提示格式的字符串，用input_variables替换template的占位
行动，观察，思考，最终答案 -- PDCA?
更结构化和高效的方式处理复杂查询，执行中自我调整和优化

概念，模式，想法，事件在数据中以复杂的方式呈现
避免单一AI目标可能带来的意想不到的负责效果
Temperature：影响输出随机性的参数，用于控制生成内容的随机性和创造性。值越高，输出越随机，反之输出越确定
大模型应用于行业，需要数据训练过程：重新训练或从头构建模型、微调模型、动态提示（如RAG）、简单提示工程
RAG实现：用户提出查询query --> Agent搜索相关信息 --> 检索retrieval信息 --> 相关信息传给大模型 --> 大模型生成generate响应 --> 回答用户请求response
交互，有助于克服链式思考推理中常见的幻觉和错误传播问题
大模型LLM，提供逻辑引擎，负责生成预测和处理输入
提示prompt，负责指导模型，形成推理框架
外部工具external tools，数据清洗工具，搜索引擎，应用程序
Agent执行器，负责调用合适的外部工具，并管理整个流程
外部工具调用，让agent能调用正确的工具，以最有用的方式描述这些工具
Agent应首先规划要采取的步骤，然后逐步执行
零样本学习，泛化能力，利有已有知识和理解来推断新的概念或行务
分阶段方法，使问题解决过程更清晰，有助于提高解决方案的质量和效率，结构化、逻辑清晰
Plan and Execute：将整个任务分解为更小、更易管理的子任务
通过更详细的指标，提高生成推理步骤的质量和准确性
计划理解问题，分析任务结构，制定详细解决方案，执行根据计划步骤解决问题
RAG检索pipeline：数据连接和加载 --> 转换 --> 嵌入形成向量形式 --> 存储到系统 --> 检索
词嵌入是大模型应用功能的核心
通过提示过程将目标分解为子任务，并自动链接多个任务
大模型的成功很大程度上依赖于通过用户的输入来引导对话生成，但这种引导费时费力，而且对于非领域专家来说，创建具体的任务提示是具有挑战性和耗时的 -- 交给专业人士，角色，执行复杂、细致的交互
多Agent，可以是协作，也可以竞争，构建下一代大模型应用，可组合、可定制
通过模拟不同角色，精心安排SOP模拟流程，code=sop(team)
从一行需求出发，输出用户帮事，竞争分析，需求，数据结构，API，文档
数据与知识解耦，意味着没有大量的本地数据，AI仍能助力企业和个人高效、便捷的使用服务，颠覆传统的数据飞轮和网络效应 -- 数据飞轮是一种反馈循环机制，通过从交互或流程中收集数据，持续优化 AI 模型，进而产生更优的结果和更有价值的数据，数据飞轮：定义与工作原理 | NVIDIA 术语表
AI将：理解人类，协同人类，启发人类