当前位置: 首页 > news >正文

论文笔记:SmartPlay : A Benchmark for LLMs as Intelligent Agents

iclr 2024 reviewer评分 5688

  • 引入了 SmartPlay,一种从 6 种不同游戏中提取的基准
    • 衡量LLM作为智能体的能力

1 智能代理所需的能力

  • 论文借鉴游戏设计的概念,确定了智能LLM代理的九项关键能力,并为每项能力确定了多个等级:
长文本理解

一般LLM的能力

根据文档长度和句法变化定义了4个等级:

1) 几行固定文本

2) 几段固定文本

3) 带有句法变化

4) 长于1页(500字)

推理

多跳逻辑推理和演绎,通常需要用于分析游戏对象的互动或行动条件/依赖关系

根据推理跳数定义了3个等级:

1) (0 ∼ 1)

2) (2 ∼ 3)

3) (> 3)

指令/规则遵循

遵循环境或用户设定的规则和指令

我们根据游戏规则的数量定义了3个等级:

1) 单一规则,

2) (< 5),

3) (5+)

规划

进行长期的情境规划以实现复杂目标

根据规划步骤和需要优先处理的并行目标定义了3个等级

1) < 5个规划步骤

2) 5个以上规划步//骤

3) 并行目标

泛化

在广泛的任务范围内表现出色。 

根据游戏提供的变异度定义了3个等级:

1) 固定环境

2) 固定游戏世界但目标随机

3) 程序生成的游戏世界

理解概率

分析和估计随机事件的概率。

根据环境中随机性的重要性定义了3个等级:

1) 无随机性

2) 游戏中存在随机性

3) 随机性为核心游戏机制

从互动中学习

从实时互动中获取环境知识。

根据需要学习的独特互动次数定义了4个等级:

1) 无需学习

2) 单次互动

3) < 5次互动

4) 5次以上互动

错误/失误处理

从错误中恢复(例如,纠正错误的轨迹)。

根据是否需要处理错误以及是否需要额外的推理和重新规划定义了3个等级:

1) 不需要

2) 简单回滚即可纠错

3) 需要推理和重新规划以纠正错误

空间推理

空间推理通常需要用来理解方向和在游戏世界中导航(例如,导航2D/3D世界)。

根据维度定义了3个等级:

1) 0 ∼ 1D

2) 2D

3) 3D。

2 SMARTPLAY 中涉及的游戏

  • 双臂老虎机
  • 石头剪刀布
  • 汉诺塔
  • 信使
  • 制造者
  • 我的世界

3 实验

3.1 各种大模型比较

http://www.lryc.cn/news/340978.html

相关文章:

  • 搜维尔科技:【工业仿真】煤矿安全知识基础学习VR系统
  • 线程和进程的区别(面试)
  • 抓取电商产品数据的方法|电商平台商品详情数据|批量上架|商品搬家|电商封装API数据采集接口更高效安全的数据采集
  • 关联规则Apriori算法
  • 书生·浦语大模型全链路开源体系-第4课
  • HTML优化SEO
  • RabbitMQ-交换机
  • mapreduce中的MapTask工作机制(Hadoop)
  • 景区文旅剧本杀小程序亲子公园寻宝闯关系统开发搭建
  • 性能优化---webpack优化
  • YOLOv9改进策略 | 损失函数篇 | EIoU、SIoU、WIoU、DIoU、FocusIoU等二十余种损失函数
  • 贪心算法-跳跃游戏
  • sql知识总结二
  • VSCode和CMake实现C/C++开发
  • 【机器学习300问】74、如何理解深度学习中L2正则化技术?
  • C语言程序设计每日一练(4)
  • m4p转换mp3格式怎么转?3个Mac端应用~
  • 全国产化无风扇嵌入式车载电脑在车队管理嵌入式车载行业应用
  • 爬虫入门——Request请求
  • 创建一个javascript公共方法的npm包,js-tool-big-box,发布到npm上,一劳永逸
  • 【在线OJ系统】自定义注解实现分布式ID无感自增
  • 35. UE5 RPG制作火球术技能
  • 计算机网络 TCP/IP体系 物理层
  • 微服务相关
  • 虚拟机下如何使用Docker(完整版)
  • asp.net core 依赖注入后的服务生命周期
  • 交换排序:冒泡排序和快速排序
  • 聊天机器人ChatGPT指导下的论文写作
  • 康谋技术 | 深入探讨:自动驾驶中的相机标定技术
  • 如何在 Ubuntu 上启用 IPv6