当前位置：首页 > news >正文

论文笔记：SmartPlay : A Benchmark for LLMs as Intelligent Agents

news 2025/8/22 13:23:10

iclr 2024 reviewer评分 5688

引入了 SmartPlay，一种从 6 种不同游戏中提取的基准
- 衡量LLM作为智能体的能力

1 智能代理所需的能力

论文借鉴游戏设计的概念，确定了智能LLM代理的九项关键能力，并为每项能力确定了多个等级：

长文本理解	一般LLM的能力根据文档长度和句法变化定义了4个等级： 1) 几行固定文本 2) 几段固定文本 3) 带有句法变化 4) 长于1页（500字）
推理	多跳逻辑推理和演绎，通常需要用于分析游戏对象的互动或行动条件/依赖关系根据推理跳数定义了3个等级： 1) (0 ∼ 1) 2) (2 ∼ 3) 3) (> 3)
指令/规则遵循	遵循环境或用户设定的规则和指令我们根据游戏规则的数量定义了3个等级： 1) 单一规则， 2) (< 5)， 3) (5+)
规划	进行长期的情境规划以实现复杂目标根据规划步骤和需要优先处理的并行目标定义了3个等级 1) < 5个规划步骤 2) 5个以上规划步//骤 3) 并行目标
泛化	在广泛的任务范围内表现出色。根据游戏提供的变异度定义了3个等级： 1) 固定环境 2) 固定游戏世界但目标随机 3) 程序生成的游戏世界
理解概率	分析和估计随机事件的概率。根据环境中随机性的重要性定义了3个等级： 1) 无随机性 2) 游戏中存在随机性 3) 随机性为核心游戏机制
从互动中学习	从实时互动中获取环境知识。根据需要学习的独特互动次数定义了4个等级： 1) 无需学习 2) 单次互动 3) < 5次互动 4) 5次以上互动
错误/失误处理	从错误中恢复（例如，纠正错误的轨迹）。根据是否需要处理错误以及是否需要额外的推理和重新规划定义了3个等级： 1) 不需要 2) 简单回滚即可纠错 3) 需要推理和重新规划以纠正错误
空间推理	空间推理通常需要用来理解方向和在游戏世界中导航（例如，导航2D/3D世界）。根据维度定义了3个等级： 1) 0 ∼ 1D 2) 2D 3) 3D。

2 SMARTPLAY 中涉及的游戏

双臂老虎机
石头剪刀布
汉诺塔
信使
制造者
我的世界

3 实验

3.1 各种大模型比较

http://www.lryc.cn/news/340978.html

相关文章：

搜维尔科技：【工业仿真】煤矿安全知识基础学习VR系统

线程和进程的区别(面试)

抓取电商产品数据的方法|电商平台商品详情数据|批量上架|商品搬家|电商封装API数据采集接口更高效安全的数据采集

关联规则Apriori算法

书生·浦语大模型全链路开源体系-第4课

RabbitMQ-交换机

mapreduce中的MapTask工作机制（Hadoop）

景区文旅剧本杀小程序亲子公园寻宝闯关系统开发搭建

性能优化---webpack优化

YOLOv9改进策略 | 损失函数篇 | EIoU、SIoU、WIoU、DIoU、FocusIoU等二十余种损失函数

贪心算法-跳跃游戏

sql知识总结二

VSCode和CMake实现C/C++开发

【机器学习300问】74、如何理解深度学习中L2正则化技术？

C语言程序设计每日一练（4）

m4p转换mp3格式怎么转？3个Mac端应用~

全国产化无风扇嵌入式车载电脑在车队管理嵌入式车载行业应用

爬虫入门——Request请求

创建一个javascript公共方法的npm包，js-tool-big-box，发布到npm上，一劳永逸

【在线OJ系统】自定义注解实现分布式ID无感自增

35. UE5 RPG制作火球术技能

计算机网络 TCP/IP体系物理层

微服务相关

虚拟机下如何使用Docker(完整版)

asp.net core 依赖注入后的服务生命周期

交换排序：冒泡排序和快速排序

聊天机器人ChatGPT指导下的论文写作

康谋技术 | 深入探讨：自动驾驶中的相机标定技术

如何在 Ubuntu 上启用 IPv6