当前位置: 首页 > news >正文

【已解决】关于如何将Doccano标注的文本转换成NER模型可以直接处理的CoNLL 2003格式

笔者要做命名实体识别(NER)的工作,选择了Doccano平台来进行文本标注。

Doccano平台对标注结果的导出格式是JSONL格式,我们导出了NER.jsonl文件。

但是用python语言搭建深度学习模型来实现NER时,一般接收的输入数据格式为CoNLL 2003格式,需要将Doccano导出的JSONL数据转换成CoNLL 2003格式。CoNLL 2003格式大概长下面这样,左边是原文,右边是标签:

刚开始我还琢磨怎么变代码做转换,后来查到Doccano有官方的转换工具:doccano-transformer,就是个python库,用起来很方便,下面是官方给出的使用代码:

先在命令提示符里安装:

pip install doccano-transformer

再用python语句来使用:

from doccano_transformer.datasets import NERDataset
from doccano_transformer.utils import read_jsonldataset = read_jsonl(filepath='example.jsonl', dataset=NERDataset, encoding='utf-8')
dataset.to_conll2003(tokenizer=str.split)

但是官方给的代码不够完整,没有把结果转成可以直接操作的txt文本,下面是我真正使用的代码,增加了将转换结果存储成txt文件这一环节: 

from doccano_transformer.datasets import NERDataset
from doccano_transformer.utils import read_jsonldataset = read_jsonl(filepath='NER.jsonl', dataset=NERDataset, encoding='utf-8')
gen=dataset.to_conll2003(tokenizer=str.split)file_name="CoNLL.txt"with open(file_name, "w", encoding = "utf-8") as file:for item in gen:file.write(item["data"] + "\n")

但却报错,提示:KeyError: 'The file should includes either "labels" or "annotations".':

在网上找了很久发现了解决办法,需要两步:

①将导出的jsonl文件里的“entities”标签转换成“annotations”。

②将“doccano_transformer\examples.py”脚本中第29行的“doccano_transformer\examples.py”修改成“labels[0].append([”。(截图中使用Notepad++打开的examples.py脚本)

然后再按照我们之前的转换代码运行就可以了:

from doccano_transformer.datasets import NERDataset
from doccano_transformer.utils import read_jsonldataset = read_jsonl(filepath='NER.jsonl', dataset=NERDataset, encoding='utf-8')
gen=dataset.to_conll2003(tokenizer=str.split)file_name="CoNLL.txt"with open(file_name, "w", encoding = "utf-8") as file:for item in gen:file.write(item["data"] + "\n")

http://www.lryc.cn/news/176781.html

相关文章:

  • 网络编程day03(UDP中的connect函数、tftp)
  • flarum 论坛 User Statistics插件修改
  • 阿里云产品试用系列-容器镜像服务 ACR
  • Langchain里的“记忆力”,让AI只记住有用的事
  • 从零开始的LINUX(一)
  • CH34X-MPHSI高速Master扩展应用—I2C设备调试
  • 记一次正式环境升级docker服务基础进行版本异常
  • leetcode面试经典150题第一弹(一)
  • VME-7807RC-414001 350-93007807-414001 VMIVME-017807-411001 VMIVME-017807-414001
  • 01-Zookeeper特性与节点数据类型详解
  • TP6 TP8 使用阿里官方OSS SDK方法
  • SkyWalking分布式链路追踪学习
  • git revert 撤销之前的提交
  • rk3568环境配置和推理报错: RKNN_ERR_MALLOC_FAIL
  • 网络工程师基础笔记(一)
  • Postman应用——Headers请求头设置
  • 人人都是项目经理-项目管理概述(一)
  • 浅谈基于物联网的医院消防安全管理
  • 户用储能争斗:华宝新能“稳”、正浩科技“快”、安克创新“急”
  • 【面试篇】集合相关高频面试题
  • RT Preempt linux学习笔记
  • JavaScript 基础第四天笔记
  • Unity 2021.x及以下全版本Crack
  • 基于知识蒸馏的夜间低照度图像增强及目标检测
  • 4、ARM异常处理
  • 【Element-UI】CUD(增删改)及form 表单验证(附源码)
  • 2024年高新技术企业认定标准
  • 励磁工作原理
  • 【JAVA】获取当前项目的classpath路径
  • Sulfo CY3-DBCO蛋白质标记实验-星戈瑞