当前位置：首页 > news >正文

课题学习笔记1——文本问答与信息抽取关键技术研究论文阅读（用于无结构化文本问答的文本生成技术）

news 2025/7/16 17:14:46

上周对国防科技大学的论文进行了阅读，学习了问答的一些基本知识，以及精读了“基于知识图谱的问答”部分，这周继续阅读“用于无结构化文本问答的文本生成技术”部分，这周大部分时间在准备比赛，所以看的有些慢。

1 引言

语义解析是自然语言处理中一个长期存在的难题。很多方法将自然语言描述 / 问题作为输入，并使用不同的序列到序列框架以基于文本或基于语法的方式解码生成逻辑表达式。

然而，这些方法忽略了复杂问题在文本空间的可分解性。

而复杂问题通常由一组子问题组成。

所以本论文着眼于对每个子问题以及子问题中的关键信息的理解，通过这种方式帮助对原始复杂问题进行语义解析。

QD 表示问题分解（Question Decomposition），IE 表示子问题信息抽取（Information Extraction），SP 表示语义解析（Semantic Parsing）。阶段 1 中的相关子问题和阶段 2中每个子问题对应的关系信息可以帮助获得阶段 3 中复杂问题的逻辑表达式。

1.1 此前问题分解方法

利用指针网络在复杂问题中产生分割点，并将复杂问题分离成一个简单问题序列

存在问题：

1）在某些问题中通过拆分点来分解复杂问题，可能找不到最佳的子问题，并损失一些信息。

2）这种方法需要指定子问题以及切分点的数量，对于多于两个子问题的复杂问题切分难度很高。

3）使用单独的基于检索的阅读理解进行后续子问题问答，增加了后续任务难度并带来了处理管道间的错误传播问题。

2 本文方法

层次语义解析（HSP: Hierarchical Semantic Parsing）模型，层次化的序列到序列的框架

主要思路是文本空间的分解和向量空间的聚合

图3.6是模型示意图，我们接下来具体分析是如何实现的。

2.1 基本单元--解析单元 (Parsing Unit)

框架组成：序列到序列

输入：输入序列（字符序列）、约束信息（辅助信息编码后的向量序列）

输出：解析后的目标序列（字符序列）

编码器部分

输入编码：
- 将输入序列中的每个单词映射为词向量（通过 EMB 函数）。
- 使用 L 层 Transformer 编码器处理词向量，得到上下文表示 h = fenc(a) = fe(EMB(a))。
约束信息融合：
- 将编码器输出 h 与额外约束信息 e 进行向量拼接，得到融合表示 h¯ = [h; e]。

解码器部分

输入与解码方式：
- 解码器以融合信息 h¯ 为基础，采用自回归方式逐词生成输出序列。
- 在时间步 t，根据历史输出计算条件概率。
解码过程：
- 词嵌入与位置编码：将历史输出 o<t 通过词向量和位置向量映射为解码器输入表示。
- L 层 Transformer 解码：
  - 每一层 l 的输出 k_l_j 依赖于上一层的输出 k_{l-1}≤j 和融合信息 h¯，表示为 k_l_j = Layer(k_{l-1}≤j, h¯)。
  - Layer 函数通过两种注意力机制实现：
    - 多头自注意力：捕获解码器内部的历史依赖关系。
    - 编码器 - 解码器注意力：关联融合信息 h¯，引入输入序列和约束的上下文。
输出概率计算：
- 最后一层输出 k_L_j 通过线性变换和 Softmax 函数得到词库 V 上的预测概率分布：