当前位置：首页 > news >正文

[论文笔记]DAPR: A Benchmark on Document-Aware Passage Retrieval

news 2025/8/28 4:02:19

引言

今天带来论文DAPR: A Benchmark on Document-Aware Passage Retrieval的笔记。

本文提出了一个基准：文档感知段落检索(Document-Aware Passage Retrieval,DAPR)以及介绍了一些上下文段落表示的方法。

为了简单，下文中以翻译的口吻记录，比如替换"作者"为"我们"。

1. 总体介绍

图 1：DAPR 的示例实例。为了找到与查询相关的段落，检索器需要利用文档上下文，在本例中这意味着名词"地点"的共指解析。

我们提出了文档感知段落检索(DAPR)任务，其中检索需要考虑关联的文档上下文以返回相关段落。一个例子如图1所示。在这种情况下，用户询问在特定场地演奏过的音乐家。然而，相关段落没有提及场地名称，而仅提及名词引用，检索器需要理解这些用于查找正确段落的文档上下文。

我们对SOTA检索器进行错误分析，发现主要错误是由于缺少文档上下文，其中正确的段落缺少共指解析、底层主题的信息。

在实验中，我们通过两种方法向SOTA检索器引入文档上下文来测试扩展SOTA检索器的方法：

使用BM25混合检索；
带有上下文的段落表示，它基于文档上下文来增强段落表示；

2. 相关工作

略

3. DAPR任务和基准

DAPR任务要求系统根据有关(长)文档检索相关段落并对其进行排名。

给定段落集合 $C=\{p_i\}_{i=1}^N$ 和它们关联的文档 $D=\{d_i\}_{i=1}^N$ ，对于查询 $\in Q$ ，检索系统 $\times C \times D \rightarrow \R$ 需要返回前 $K$ 个段落 $R=\{p_1,p_2,\cdots,p_K\}$ 。

3.1 NQ-Hard:NaturalQuestions 中的疑难案例

对 SoTA 段落检索器（DRAGON+、SPLADEv2 和 ColBERTv2）和 BM25 的自然问题进行了错误分析。发现53.5%的错误案例是由于没有检索到相关段落上下文造成的。

4. 实验

引入文档上下文

BM25混合检索

使用BM25检索整个文档，使用神经网络检索器检索段落。

排名融合 融合了来自BM25检索器和神经检索器的相关性分数，计算为：
$s_\text{convex}(q,p,d) = \alpha \hat s_\text{BM25}(q,p) + (1-\alpha) \hat s_\text{neural}(q,d)$
其中 $\alpha \in [0,1]$ 是融合权重； $\hat s$ 表示归一化的相关性得分，计算为：
$\hat s(q,c) = \frac{s(q,c) - m_q }{M_q - m_q}$
其中 $c$ 表示候选段落/文档； $m_q$ 和 $M_q$ 分别是最小和最大值。