当前位置：首页 > news >正文

【AI论文】序曲（PRELUDE）：一项旨在考察对长文本语境进行全局理解与推理能力的基准测试

news 2025/8/18 13:21:11

摘要：我们推出了一项名为PRELUDE的基准测试，该测试通过判断某角色前传故事是否与原著正传的经典叙事一致这一任务，来评估对长文本语境的理解能力。与现有基准测试相比，我们的任务对全局理解和深度推理提出了更高要求——由于前传并非原著故事的一部分，评估其合理性通常需要搜索并整合仅间接相关的信息。经验性研究表明，88%的案例需要从叙事的不同部分提取证据。实验结果表明，我们的任务颇具挑战性：利用最先进大语言模型（LLMs）进行的情境学习、检索增强生成（RAG）和领域内训练，以及商业DeepResearch服务，其表现均落后人类15%以上。进一步的人为研究揭示，模型常常在推理有误的情况下给出正确答案，与人类相比，推理准确率差距超过30%。这些发现凸显了在长文本语境理解和推理方面仍有巨大的改进空间。Huggingface链接：Paper page，论文链接：2508.09848

一、研究背景和目的

研究背景

随着大型语言模型（LLMs）在多文档分析、个人助手聊天历史记录管理、自主代理以及代码仓库级编码工具等领域的广泛应用，对长文本语境的稳健理解和推理能力提出了越来越高的要求。尽管已有多种技术被提出来支持长文本输入，如高效注意力机制和检索增强生成（RAG），但如何有效评估长文本语境理解和推理能力仍然是一个挑战。现有的基准测试在评估全局理解、深度推理以及避免记忆化等方面存在局限性，难以全面反映模型在长文本语境下的真实能力。

研究目的

本研究旨在通过引入一项新的基准测试——PRELUDE，来解决上述问题。PRELUDE旨在评估模型在长文本语境下的全局理解和推理能力，具体任务是判断某角色前传故事是否与原著正传的经典叙事一致。与现有基准测试相比，PRELUDE对全局理解和深度推理提出了更高要求，因为它要求模型不仅理解原著故事的内容，还要能够判断前传故事是否与原著的叙事逻辑和设定相吻合。这一任务设计有助于揭示模型在长文本语境理解和推理方面的真实能力，推动相关研究的深入发展。

二、研究方法

1. 基准测试设计

PRELUDE基准测试通过以下步骤构建：

任务定义：判断某角色前传故事是否与原著正传的经典叙事一致。
数据集构建：从多部经典文学作品中选择重要配角，生成其前传故事，并由人类专家进行标注，判断前传故事是否与原著一致。标注过程遵循严格的标准，确保标注质量。
标签定义：定义了五种标签类型，包括直接矛盾（Contradict-Local）、全局矛盾I（Contradict-Global I）、全局矛盾II（Contradict-Global II）、无关一致（Consistent-Irrelevant）和核心一致（Consistent-Core），以细化标注结果。

2. 模型评估

为了全面评估模型在PRELUDE基准测试上的表现，研究采用了以下几种方法：

少样本情境学习（Few-Shot In-Context Learning, ICL）：在不提供原著上下文的情况下，仅通过少量示例来评估模型的内在参数知识。
检索增强生成（RAG）：允许模型访问原著文本，通过检索相关信息来辅助判断。
领域内微调（In-Domain Training）：在标注数据集上进行微调，以激发模型的特定能力。
多样本情境学习（Many-Shot ICL）：在输入上下文中提供大量示例，以激发模型的潜在能力。