当前位置：首页 > news >正文

论文阅读：AAAI 2024 ExpeL: LLM Agents Are Experiential Learners

news 2025/8/9 17:42:34

https://www.doubao.com/chat/15518976100960770

https://ojs.aaai.org/index.php/AAAI/article/view/29936

Advances and Challenges in Foundation Agents–Memory调研

论文翻译

ExpeL: 大型语言模型代理是经验学习者

摘要

最近，利用大型语言模型（LLMs）中蕴含的丰富世界知识来解决决策任务的研究兴趣激增。虽然针对特定决策任务定制大型语言模型的需求日益增长，但为特定任务微调这些模型不仅耗费资源，还可能降低模型的泛化能力。此外，像GPT-4和Claude这样的最先进语言模型主要通过API调用访问，其参数权重仍为专有信息，不向公众开放。这种情况凸显了对新方法的迫切需求，即无需参数更新就能从代理经验中学习。为解决这些问题，我们提出了经验学习（ExpeL）代理。该代理能自主收集经验，并从一系列训练任务中用自然语言提取知识。在推理阶段，代理会回忆提取的见解和过去的经验，以做出明智的决策。我们的实证结果凸显了ExpeL代理强大的学习效能，表明其性能随着经验的积累而持续提升。我们还通过定性观察和额外实验，进一步探索了ExpeL代理的新兴能力和迁移学习潜力。

1 引言

汤姆·米切尔（Tom Mitchell）曾说：如果一个计算机程序在某类任务T上的性能（由性能指标P衡量）随着经验E的增加而提高，那么就可以说该程序从经验E中学习。

长期以来，机器学习研究一直被自主代理及其能力所吸引。近年来，将大型语言模型融入这些代理（Wang等人，2023a；Xi等人，2023）已经揭示了广泛的应用，甚至超出了学术界的范围（Yang等人，2023a；Significant-Gravitas，2023）。大型语言模型的一个显著优势在于其拥有的世界知识，这使得它们在各种场景中本质上具有通用性（Zhao等人，2023b）。

一方面，先前的研究通过大量环境交互（Yao等人，2023c）或大量人类标记数据集（Nakano等人，2021；Shaw等人，2023）来微调大型语言模型。这类方法计算成本高，并且需要访问大型语言模型的参数权重。此外，微调大型语言模型会限制其功能，并可能损害其泛化能力（Du等人，2022）。另一方面，提示方法只需几个上下文示例，就能增强大型语言模型的顺序决策规划能力（Hao等人，2023；Lin等人，2023b；Sun等人，2023）。然而，由于当前的大型语言模型受限于上下文窗口大小（Tworkowski等人，2023），这些代理无法记住它们所见过的内容，因此除了少数演示之外，无法进行学习。那么，我们如何在这些范式之间取得平衡呢？

我们提出经验学习（ExpeL）代理作为解决方案。我们的代理通过试错从一系列训练任务中自主收集经验。从这些经验中，它提炼出自然语言见解，并在测试时将自己的成功经验作为上下文示例。我们代理的学习过程类似于学生为考试学习，然后一次性参加考试，这反映了许多现实世界的情况。与Refexion（Shinn等人，2023）等自我改进方法不同，我们的方法强调在多个任务中保留经验对提高代理性能的重要性。此外，ExpeL无需参数更新即可学习，这使其与GPT-4或Claude等强大的闭源模型兼容。最后，经验收集步骤不需要大量数据或人类标签。

我们在三个截然不同的领域对ExpeL进行了评估，其性能始终优于强大的基线模型。此外，我们展示了一个迁移学习场景，即从源任务中积累知识的代理对目标任务表现出积极的前向迁移。最后，我们强调了ExpeL代理获得的一些意想不到的新兴能力。

总之，我们的主要贡献如下：（1）我们提出了ExpeL，这是一种新型的大型语言模型代理，能够在无需梯度更新的情况下自主从经验中学习；（2）我们在一系列不同的任务上对ExpeL进行了评估，以展示其学习能力以及在现有规划方法基础上的改进；（3）我们为我们的大型语言模型代理展示了一种新颖的迁移学习设置，并证明了从源任务到目标任务的前向迁移能力。最后，我们相信，随着规划算法和基础模型的不断改进，ExpeL范式将从它们的性能提升中获得显著收益。

在这里插入图片描述