当前位置: 首页 > news >正文

【深度学习】BERT变体—BERT-wwm

1.BERT-wwm

1-1 Whole Word Masking

        Whole Word Masking (wwm)是谷歌在2019年5月31日发布的一项BERT的升级版本,主要更改了原预训练阶段的训练样本生成策略。 

        原有基于WordPiece的分词方式会把一个完整的词切分成若干个子词,在生成训练样本时,这些被分开的子词会随机被mask。 在Whole Word Masking (wwm)中,如果一个完整的词的部分WordPiece子词被mask,则同属该词的其他部分也会被mask。这缓解了在训练前 BERT 中屏蔽部分 Wordpiece 分词的缺点。

2.Chinese-BERT-wwm

2-1 中文BERT-WWM

        2019年哈工大和科大讯飞联合发表中文BERT-WWM模型的论文,使用中文文本对整个单词进行掩蔽,即屏蔽整个单词而不是屏蔽汉字。由于谷歌官方发布的BERT中,中文以字粒度进行切分,没有考虑到传统NLP中的中文分词。 Chinese-BERT-wwm将 Whole Word Mask的方法应用在了中文中,使用了中文维基百科(包括简体和繁体)进行训练,并且使用了哈工大LTP作为分词工具,即对组成同一个的汉字全部进行Mask。

2-2 样例

3.总结

        BERT-WWM对Bert的改进主要体现在mask的方式上,使用全词mask。

        其改进点如下:BERT-WWM不仅仅是连续mask实体词和短语,而是连续mask所有能组成中文词语的字。具体做法是,针对中文,如果一个完整的词的部分字被mask,则同属该词的其他部分也会被mask,即对组成同一个词的汉字全部进行Mask,即为全词Mask。

        这样做的目的是:预训练过程中,模型能够学习到词的语义信息,训练完成后字的embedding就具有了词的语义信息了,这对各类中文NLP任务都是友好的。

http://www.lryc.cn/news/31506.html

相关文章:

  • 【华为OD机试真题 java、python、c++】优秀学员统计【2022 Q4 100分】(100%通过)
  • JavaScript里的循环方法:forEach,for-in,for-of
  • 汽车标定知识整理(二):CCP报文基本命令介绍
  • windows系统安装Linux虚拟机教程
  • “基于Spring Cloud Alibaba的微服务架构实战:Nacos配置管理“
  • 【Linux】常见面试题
  • 【数据结构】顺序表:尾部操作我很行,随机访问我超快!!!
  • SQL优化
  • Java ArrayList 和 LinkList 原理对比
  • 【Spring】入门概述(一)
  • 十二、面向切面编程AOP
  • Mybatis 处理 CLOB/BLOB 类型数据
  • 【NLP经典论文阅读】Efficient Estimation of Word Representations in Vector Space(附代码)
  • Spring bean生命周期分为几个阶段?
  • 【基础算法】单链表的OJ练习(4) # 分割链表 # 回文链表 #
  • SpringBoot整合定时任务和邮件发送(邮箱 信息轰炸 整蛊)
  • Arduino添加ESP32开发板
  • Mysql通配符的使用
  • RocketMQ-02
  • 深度学习卷积神经网络CNN之 VGGNet模型主vgg16和vgg19网络模型详解说明(理论篇)
  • 三:BLE协议架构简介
  • 小型双轮差速底盘双灰度循迹功能的实现
  • 电子签名?玩具罢了!
  • 【Spring Boot读取配置文件的方式】
  • java学习路线规划
  • 格密码学习笔记(二):连续极小、覆盖半径和平滑参数
  • ios 通过搜索设备MAC地址绑定
  • Python实现人脸识别,进行视频跟踪打码,羞羞的画面统统打上马赛克
  • vcf bed起始位置是0还是1
  • Hexo+live2d | 如何把live2d老婆放进自己的博客