当前位置: 首页 > news >正文

论文阅读:AAAI 2024 ExpeL: LLM Agents Are Experiential Learners

https://www.doubao.com/chat/15518976100960770

https://ojs.aaai.org/index.php/AAAI/article/view/29936

Advances and Challenges in Foundation Agents–Memory调研

论文翻译

ExpeL: 大型语言模型代理是经验学习者

摘要

最近,利用大型语言模型(LLMs)中蕴含的丰富世界知识来解决决策任务的研究兴趣激增。虽然针对特定决策任务定制大型语言模型的需求日益增长,但为特定任务微调这些模型不仅耗费资源,还可能降低模型的泛化能力。此外,像GPT-4和Claude这样的最先进语言模型主要通过API调用访问,其参数权重仍为专有信息,不向公众开放。这种情况凸显了对新方法的迫切需求,即无需参数更新就能从代理经验中学习。为解决这些问题,我们提出了经验学习(ExpeL)代理。该代理能自主收集经验,并从一系列训练任务中用自然语言提取知识。在推理阶段,代理会回忆提取的见解和过去的经验,以做出明智的决策。我们的实证结果凸显了ExpeL代理强大的学习效能,表明其性能随着经验的积累而持续提升。我们还通过定性观察和额外实验,进一步探索了ExpeL代理的新兴能力和迁移学习潜力。

1 引言

汤姆·米切尔(Tom Mitchell)曾说:如果一个计算机程序在某类任务T上的性能(由性能指标P衡量)随着经验E的增加而提高,那么就可以说该程序从经验E中学习。

长期以来,机器学习研究一直被自主代理及其能力所吸引。近年来,将大型语言模型融入这些代理(Wang等人,2023a;Xi等人,2023)已经揭示了广泛的应用,甚至超出了学术界的范围(Yang等人,2023a;Significant-Gravitas,2023)。大型语言模型的一个显著优势在于其拥有的世界知识,这使得它们在各种场景中本质上具有通用性(Zhao等人,2023b)。

一方面,先前的研究通过大量环境交互(Yao等人,2023c)或大量人类标记数据集(Nakano等人,2021;Shaw等人,2023)来微调大型语言模型。这类方法计算成本高,并且需要访问大型语言模型的参数权重。此外,微调大型语言模型会限制其功能,并可能损害其泛化能力(Du等人,2022)。另一方面,提示方法只需几个上下文示例,就能增强大型语言模型的顺序决策规划能力(Hao等人,2023;Lin等人,2023b;Sun等人,2023)。然而,由于当前的大型语言模型受限于上下文窗口大小(Tworkowski等人,2023),这些代理无法记住它们所见过的内容,因此除了少数演示之外,无法进行学习。那么,我们如何在这些范式之间取得平衡呢?

我们提出经验学习(ExpeL)代理作为解决方案。我们的代理通过试错从一系列训练任务中自主收集经验。从这些经验中,它提炼出自然语言见解,并在测试时将自己的成功经验作为上下文示例。我们代理的学习过程类似于学生为考试学习,然后一次性参加考试,这反映了许多现实世界的情况。与Refexion(Shinn等人,2023)等自我改进方法不同,我们的方法强调在多个任务中保留经验对提高代理性能的重要性。此外,ExpeL无需参数更新即可学习,这使其与GPT-4或Claude等强大的闭源模型兼容。最后,经验收集步骤不需要大量数据或人类标签。

我们在三个截然不同的领域对ExpeL进行了评估,其性能始终优于强大的基线模型。此外,我们展示了一个迁移学习场景,即从源任务中积累知识的代理对目标任务表现出积极的前向迁移。最后,我们强调了ExpeL代理获得的一些意想不到的新兴能力。

总之,我们的主要贡献如下:(1)我们提出了ExpeL,这是一种新型的大型语言模型代理,能够在无需梯度更新的情况下自主从经验中学习;(2)我们在一系列不同的任务上对ExpeL进行了评估,以展示其学习能力以及在现有规划方法基础上的改进;(3)我们为我们的大型语言模型代理展示了一种新颖的迁移学习设置,并证明了从源任务到目标任务的前向迁移能力。最后,我们相信,随着规划算法和基础模型的不断改进,ExpeL范式将从它们的性能提升中获得显著收益。

在这里插入图片描述

http://www.lryc.cn/news/614735.html

相关文章:

  • 连锁店管理系统的库存跟踪功能:数字化转型下的零售运营核心
  • Nextcloud容器化部署新范式:Docker与Cpolar如何重塑私有云远程访问能力
  • 浅试A2A
  • 商品 SKU 计算,库存不足不能选择
  • SpringBoot的profile加载
  • C++ 模拟实现 map 和 set:掌握核心数据结构
  • 恒科持续低迷:新能源汽车股下跌成拖累,销量担忧加剧
  • Mac下安装Conda虚拟环境管理器
  • AI开发平台行业全景分析与战略方向建议
  • WPF 动画卡顿
  • Seaborn 数据可视化库:入门与进阶指南
  • 解决多线程安全性问题的方法
  • 无人设备遥控器之信号编码技术篇
  • 深入理解OpenGL Shader与GLSL:基础知识与优势分析
  • 【深度学习】动手深度学习PyTorch版——安装书本附带的环境和代码(Windows11)
  • list的简单介绍
  • 大厂求职 | 唯品会2026校园招聘正式启动!
  • “鱼书”深度学习进阶笔记(1)第二章
  • 微信小程序功能 表单密码强度验证
  • NOIP 2024 游记
  • [激光原理与应用-185]:光学器件 - BBO、LBO、CLBO晶体的全面比较
  • LoRA微调的代码细节
  • 2025年渗透测试面试题总结-07(题目+回答)
  • 【设计模式】访问者模式模式
  • Chrome DevTools Protocol 开启协议监视器
  • flutter开发(一)flutter命令行工具
  • SVM实战:从线性可分到高维映射再到实战演练
  • 【同余最短路】P2371 [国家集训队] 墨墨的等式|省选-
  • 在 Git 中,将本地分支的修改提交到主分支
  • 广东省省考备考(第七十天8.8)——言语、判断推理(强化训练)