当前位置: 首页 > article >正文

NER实践总结,记录一下自己实践遇到的各种问题。

更。

没卡,跑个模型休息好几天,又闲又急。

一开始直接套用了别人的代码进行实体识别,结果很差,原因是他的词表没有我需要的东西,我是用的医学文本。代码直接在github找了改的,用的是BERT的Chinese版本。


然后想了解决办法就是使用自己创建词表的方法先处理一下整个文本数据,将高频词合并(1000个)。前一千个我自己去筛选。结果效果很差,很多没包含的,很多不是词也和一起了,非常烂(相当蠢的一个办法还浪费了很长时间大家别尝试了)。


然后想了新的解决办法是在网上找那种公开的医学书的目录,作为词表,比如某一章节讲高血压,就可以作为词表。因此去找了中华药典等之类的书,放入词表进行训练。效果还可以,但还是有很多错误。


最后发现是因为没有提前删标点之类的东西,导致句子太长。因此使用re包重新处理了数据,再跑,效果相当不错。感人。

需要北美求职的小伙伴,可以私我哦,硅谷大厂大佬亲自求职陪跑!保证拿到实习offer~

此外还开发了一些小工具:

ai求职——Jobnova powered by Liba Space - Get the most timely job recommendations

ai面试——Jobnova powered by Liba Space - Get the most timely job recommendations

欢迎参与尝试。

http://www.lryc.cn/news/2399282.html

相关文章:

  • 微信小程序实现运动能耗计算
  • iTunes 无法备份 iPhone:10 种解决方法
  • 施耐德特价型号伺服电机VIA0703D31A1022、常见故障
  • LangChain4J 使用实践
  • 慢SQL调优(二):大表查询
  • 【C++】—— 从零开始封装 Map 与 Set:实现与优化
  • 内网穿透之Linux版客户端安装(神卓互联)
  • 开疆智能Profinet转Profibus网关连接CMDF5-8ADe分布式IO配置案例
  • 华为云Flexus+DeepSeek征文|Flexus云服务器单机部署+CCE容器高可用部署快速搭建生产级的生成式AI应用
  • 扫地机产品--材质传感器算法开发与虚拟示波器
  • [蓝桥杯]上三角方阵
  • 60天python训练计划----day44
  • 【JAVA版】意象CRM客户关系管理系统+uniapp全开源
  • API异常信息如何实时发送到钉钉
  • Python爬虫(48)基于Scrapy-Redis与深度强化学习的智能分布式爬虫架构设计与实践
  • AtCoder Beginner Contest 407 E - Most Valuable Parentheses
  • (1-6-3)Java 多线程
  • java31
  • 多模态之智能数字人
  • 界面组件DevExpress WPF中文教程:Grid - 如何识别行和卡片?
  • 【HarmonyOS Next之旅】DevEco Studio使用指南(三十)
  • AI基础知识(LLM、prompt、rag、embedding、rerank、mcp、agent、多模态)
  • [蓝桥杯]高僧斗法
  • pycharm F2 修改文件名 修改快捷键
  • Python Flask中启用AWS Secrets Manager+AWS Parameter Store配置中心
  • 机器学习与深度学习10-支持向量机02
  • 《深入解析UART协议及其硬件实现》-- 第二篇:UART硬件架构设计与FPGA实现
  • java swing 晃动鼠标改变背景颜色
  • HikariCP 可观测性最佳实践
  • 简简单单探讨下starter