当前位置：首页 > news >正文

昇思25天学习打卡营第23天|LSTM+CRF序列标注

news 2025/7/19 19:03:13

Mindspore框架CRF条件随机场概率图模型实现文本序列命名实体标注|（一）序列标注与条件随机场的关系
Mindspore框架CRF条件随机场概率图模型实现文本序列命名实体标注|（二）CRF模型构建
Mindspore框架CRF条件随机场概率图模型实现文本序列命名实体标注|（三）双向LSTM+CRF模型构建实现

Mindspore框架CRF条件随机场概率图模型实现文本序列命名实体标注|序列标注与条件随机场的关系

一、序列标注定义

序列标注：指给定输入序列，给序列中每个Token（word）进行标注标签的过程。
序列标注问题：是从文本中进行信息抽取，包括标注分词(Word Segmentation)、词性标注(Position Tagging)、命名实体识别(Named Entity Recognition, NER)等。

“BIOE”标注方法：为命名实体识别的标注方法；是将一个实体(Entity)的开头标注为B，其他部分标注为I，非实体标注为O。表示文本中的每个字符分为四种类型：‌

B（‌Begin）‌表示一个实体的开始。‌
I（‌Inside）‌表示实体内部的字符。‌
O（‌Outside）‌表示不属于任何实体的字符。‌
E（‌End）‌表示一个实体的结束。‌

输入序列，输出标注。

在这里插入图片描述
标注的作用与意义：通过这种标注方式，‌我们可以清晰地识别出句子中的不同实体及其边界，‌这对于自然语言处理中的命名实体识别任务非常有用。‌BIOE标注法提供了一种标准化的方式来标记文本中的实体，‌它涉及到从文本中识别出具有特定意义的实体，‌如人 (PERSON)、‌地点 (LOCATION)、‌组织机构 (ORG e.g., 公司、‌政府机构等)、‌时间表达式 (DATE) 等。‌使得机器学习模型能够更容易地学习和识别这些实体，从而提升模型对文本中实体信息的理解和提取能力。‌

二、条件随机场定义

序列标注不仅仅需要对单个Token进行分类预测，同时相邻Token直接有关联关系。
CRF：一种能够学习到这种关联关系的算法-条件随机场概率图模型
线性链条件随机场(Linear Chain CRF):序列标注问题具有线性序列特点，选择线性链条件随机场。

2.1 Line chain CRF的定义

设 $x=\{x_0, ..., x_n\}$ 为输入序列， $y=\{y_0, ..., y_n\}，y \in Y$ 为输出的标注序列，其中 $n$ 为序列的最大长度， $Y$ 表示 $x$ 对应的所有可能的输出序列集合。则输出序列 $y$ 的概率为：

$\begin{align}P(y|x) = \frac{\exp{(\text{Score}(x, y)})}{\sum_{y' \in Y} \exp{(\text{Score}(x, y')})} \qquad (1)\end{align}$

设 $x_i$ , $y_i$ 为序列的第 $i$ 个Token和对应的标签，则 $\text{Score}$ 需要能够在计算 $x_i$ 和 $y_i$ 的映射的同时，捕获相邻标签 $y_{i-1}$ 和 $y_{i}$ 之间的关系，因此我们定义两个概率函数：

发射概率函数 $\psi_\text{EMIT}$ ：表示 $x_i \rightarrow y_i$ 的概率。
转移概率函数 $\psi_\text{TRANS}$ ：表示 $y_{i-1} \rightarrow y_i$ 的概率。

则可以得到 $\text{Score}$ 的计算公式：

$\begin{align}\text{Score}(x,y) = \sum_i \log \psi_\text{EMIT}(x_i \rightarrow y_i) + \log \psi_\text{TRANS}(y_{i-1} \rightarrow y_i) \qquad (2)\end{align}$