当前位置: 首页 > article >正文

使用BERT/BiLSTM + CRF 模型进行NER进展记录~

使用代码处理数据集,发现了一些问题,以及解决办法~

下载了一组数据集,数据存放在CSV中,GBK格式。如下:

首先对每一列直接进行NER抽取,结果非常不好:

几乎是乱抽取的,解决办法是自己创建了一个词库:

创建词库需要对自己的数据集进行分词,然后对出现次数进行统计,我统计了前1000个:

import pandas as pd
import os
from collections import Counter
import jieba
from tqdm import tqdminput_dir = 'data/chinese_dialogue_medical'
fields = ['title', 'ask', 'answer']
all_text = []# 读取所有csv文件内容
def read_all_text():print("开始读取CSV文件...")csv_files = [f for f in os.listdir(input_dir) if f.endswith('.csv')]for file in tqdm(csv_files, desc="处理CSV文件"):path = os.path.join(input_dir, file)try:df = pd.read_csv(path, encoding='gbk')print(f"成功读取 {file} (GBK编码)")except Exception:try:df = pd.read_csv(path, encoding='gb18030')print(f"成功读取 {file} (GB18030编码)")except Exception as e:print(f"无法读取 {file}: {str(e)}")continuefor field in fields:if field in df.columns:texts = df[field].dropna().astype(str).tolist()all_text.extend(texts)print(f"从 {file} 的 {field} 字段中提取了 {len(texts)} 条文本")# 分词并统计高频词
def stat_terms():print("\n开始分词和统计...")words = []for text in tqdm(all_text, desc="分词处理"):words.extend(list(jieba.cut(text)))print("统计词频...")counter = Counter(words)# 过滤掉长度为1的词和常见无意义词stopwords = set([',', '。', '的', '了', '和', '是', '在', '我', '有', '也', '就', '不', '都', '与', '及', '或', '你', '他', '她', '吗', '啊', '吧', '哦', '呢', '!', '?', '、', ':', ';', '(', ')', '(', ')', '[', ']', '{', '}', ' ', '', '\n'])result = [(w, c) for w, c in counter.most_common() if len(w) > 1 and w not in stopwords]return resultif __name__ == '__main__':read_all_text()print(f"\n总共读取了 {len(all_text)} 条文本")result = stat_terms()print(f"\n统计出 {len(result)} 个高频词")# 输出前300个高频词到txtoutput_file = 'data/auto_medical_terms.txt'with open(output_file, 'w', encoding='utf-8') as f:for w, c in result[:1000]:f.write(f'{w}\t{c}\n')print(f'高频词统计完成,结果已保存到 {output_file}') 

然后将疾病相关的词放到我的词表中去。

基于新的词表进行训练,结果如下:

没有识别出来...解决中。 

然后发现没有正确加载词表,此外词表未加入同义词等内容。解决中。

刚刚代码有问题,修改之后重新识别。首先,我第一次设计的词表非常不完善,后续增加了中国药典、疾病指南之类的官方书籍的目录进去,现在比较全面了。

其次,我刚刚没有使用到实体识别的模型。

http://www.lryc.cn/news/2401276.html

相关文章:

  • HarmonyOS运动开发:精准估算室内运动的距离、速度与步幅
  • Web攻防-SQL注入高权限判定跨库查询文件读写DNS带外SecurePriv开关绕过
  • C语言数据结构笔记3:Union联合体+结构体取8位Bool量
  • 深拷贝与浅拷贝的区别?如何手写实现一个深拷贝?
  • grafana 批量视图备份及恢复(含数据源)
  • SAP学习笔记 - 开发22 - 前端Fiori开发 数据绑定(Jason),Data Types(数据类型)
  • 网络编程之TCP编程
  • C++进阶--C++11(04)
  • 当AI遇上防火墙:新一代智能安全解决方案全景解析
  • STL 库基础概念与示例
  • Spring MVC参数绑定终极手册:单多参/对象/集合/JSON/文件上传精讲
  • Fluence推出“Pointless计划”:五种方式参与RWA算力资产新时代
  • innovus: ecoAddRepeater改变hier层级解决办法
  • 华为OD机试真题——硬件产品销售方案(2025A卷:100分)Java/python/JavaScript/C++/C语言/GO六种最佳实现
  • 突破数据孤岛:StarRocks联邦查询实战指南
  • 传统业务对接AI-AI编程框架-Rasa的业务应用实战(1)--项目背景即学习初衷
  • 低功耗架构突破:STM32H750 与 SD NAND (存储芯片)如何延长手环续航至 14 天
  • CSS选择子元素
  • git cherry-pick (28)
  • android与Qt类比
  • AX513CE 是一款针对模组渠道市场前端IPC应用而设计的数字SOC芯片 支持高清CMOS Sensor输入 国产品牌
  • Linux(11)——基础IO(上)
  • ABP-Book Store Application中文讲解 - Part 9: Authors: User Interface
  • 鸿蒙开发修改版本几个步骤
  • Hive自定义函数案例(UDF、UDAF、UDTF)
  • 【学习笔记】Circuit Tracing: Revealing Computational Graphs in Language Models
  • 3D视觉重构工业智造:解码迁移科技如何用“硬核之眼“重塑生产节拍
  • Elasticsearch中的刷新(Refresh)和刷新间隔介绍
  • STM32标准库-TIM定时器
  • 【算法训练营Day05】哈希表part1