当前位置: 首页 > news >正文

NLP序列标注问题,样本不均衡怎么解决?

【学而不思则罔,思而不学则殆】

1.问题

NLP序列标注问题,样本不均衡怎么解决?
在这里插入图片描述

2.解释

以命名实体识别(NER)为例,这个样本不均衡有两种解释:
(1)实体间类别数量不均衡,比如医疗知识图谱中,疾病现象比治疗手段多得多;
(2)实体和非实体的数量不均衡,一句话中,标注为O的数量占比比较大,约60%-90%。
第一类问题会导致实体类别分类不准,也就是会影响P(查准率);第二类问题会导致实体可能识别不出来,会影响R(查全率)

3.思路

针对第一类问题:
传统的几个思路
(1)思路一:增加小样本数量,首先考虑增加原始样本数量,其次考虑数据增强(如滑动窗口),属于简单有效的方法;
(2)思路二:在不影响性能的情况下,可以考虑减少样本数量多的类别样本,这种也能平衡类别数量,还能加快训练;
(3)思路三:改变损失函数,本质是给小样本加权,比如用focal loss。
(4)思路四:用两个或多个分类模型,一个用来识别大样本类别,一个用来识别小样本类别;极端情况下,一种类别一个分类算法,好处是每种类别的性能可以针对性调优,坏处是模型太多,训练和预测更耗时。
就像问题中的图大样本和小样本比较极端,就可以考虑用两个分类模型。

针对第二类问题:
(1)思路一:剔除掉纯O的句子
(1)思路二:减少一句话中O的数量
如:

  • 建立原句的语法分析树,只取需要的部分。
    在这里插入图片描述

参考:
知乎中有类似的问题:
https://www.zhihu.com/question/340333687

http://www.lryc.cn/news/131986.html

相关文章:

  • 大端和小端
  • C++快速回顾(二)
  • 【LVS】1、LVS负载均衡群集
  • el-tree 懒加载树
  • 到江西赣州ibm维修服务器之旅-联想X3850 x6黄灯故障
  • VMware 虚拟机三种网络模式详解
  • ASP.NET指定变量数据类型,速度提高了100倍
  • PyArmor 一键加密
  • redis--持久化
  • 管理外部表
  • 数字图像处理-AWB跳变
  • DNNGP、DeepGS 和 DLGWAS模型构成对比
  • postgresSQL 配置文件设置
  • 【bug】Unity无法创建项目
  • 跨境外贸业务,选择动态IP还是静态IP?
  • Hlang社区-社区导航栏实现
  • Kestrel和ISS服务器下的配置
  • uniapp选择只选择月份demo效果(整理)
  • 微信ipad协议8.0.40 加好友功能
  • 如何通过本地搭建wamp服务器并实现无公网IP远程访问
  • matlab使用教程(19)—曲线拟合与一元方程求根
  • 【Go 基础篇】Go语言关键字和预定义标识符解析:探索编程的基石与核心要素
  • 微服务与Nacos概述-6
  • 不是说嵌入式是风口吗,那为什么工作还那么难找?
  • 【二叉树】114. 二叉树展开为链表
  • docker的安装与基础使用
  • python+django+mysql高校校园外卖点餐系统--计算机毕设项目
  • 获取excel中的图片(包含wps中嵌入单元格图片)
  • Git命令详解
  • 【STM32RT-Thread零基础入门】 4. 线程介绍(理论)