当前位置：首页 > news >正文

【深度学习】BERT变体—BERT-wwm

news 2025/7/20 2:39:16

1.BERT-wwm

1-1 Whole Word Masking

Whole Word Masking (wwm)是谷歌在2019年5月31日发布的一项BERT的升级版本，主要更改了原预训练阶段的训练样本生成策略。

原有基于WordPiece的分词方式会把一个完整的词切分成若干个子词，在生成训练样本时，这些被分开的子词会随机被mask。在Whole Word Masking (wwm)中，如果一个完整的词的部分WordPiece子词被mask，则同属该词的其他部分也会被mask。这缓解了在训练前 BERT 中屏蔽部分 Wordpiece 分词的缺点。

2.Chinese-BERT-wwm

2-1 中文BERT-WWM

2019年哈工大和科大讯飞联合发表中文BERT-WWM模型的论文，使用中文文本对整个单词进行掩蔽，即屏蔽整个单词而不是屏蔽汉字。由于谷歌官方发布的BERT中，中文以字粒度进行切分，没有考虑到传统NLP中的中文分词。 Chinese-BERT-wwm将 Whole Word Mask的方法应用在了中文中，使用了中文维基百科（包括简体和繁体）进行训练，并且使用了哈工大LTP作为分词工具，即对组成同一个词的汉字全部进行Mask。

2-2 样例

3.总结

BERT-WWM对Bert的改进主要体现在mask的方式上，使用全词mask。

其改进点如下：BERT-WWM不仅仅是连续mask实体词和短语，而是连续mask所有能组成中文词语的字。具体做法是，针对中文，如果一个完整的词的部分字被mask，则同属该词的其他部分也会被mask，即对组成同一个词的汉字全部进行Mask，即为全词Mask。

这样做的目的是：预训练过程中，模型能够学习到词的语义信息，训练完成后字的embedding就具有了词的语义信息了，这对各类中文NLP任务都是友好的。

http://www.lryc.cn/news/31506.html

相关文章：

【华为OD机试真题 java、python、c++】优秀学员统计【2022 Q4 100分】（100%通过）

JavaScript里的循环方法：forEach，for-in，for-of

汽车标定知识整理（二）：CCP报文基本命令介绍

windows系统安装Linux虚拟机教程

“基于Spring Cloud Alibaba的微服务架构实战：Nacos配置管理“

【Linux】常见面试题

【数据结构】顺序表：尾部操作我很行，随机访问我超快！！！

Java ArrayList 和 LinkList 原理对比

【Spring】入门概述(一)

十二、面向切面编程AOP

Mybatis 处理 CLOB/BLOB 类型数据

【NLP经典论文阅读】Efficient Estimation of Word Representations in Vector Space（附代码）

Spring bean生命周期分为几个阶段？

【基础算法】单链表的OJ练习(4) # 分割链表 # 回文链表 #

SpringBoot整合定时任务和邮件发送（邮箱信息轰炸整蛊）

Arduino添加ESP32开发板

Mysql通配符的使用

深度学习卷积神经网络CNN之 VGGNet模型主vgg16和vgg19网络模型详解说明（理论篇）

三：BLE协议架构简介

小型双轮差速底盘双灰度循迹功能的实现

电子签名？玩具罢了！

【Spring Boot读取配置文件的方式】

java学习路线规划

格密码学习笔记（二）：连续极小、覆盖半径和平滑参数

ios 通过搜索设备MAC地址绑定

Python实现人脸识别，进行视频跟踪打码，羞羞的画面统统打上马赛克

vcf bed起始位置是0还是1

Hexo+live2d | 如何把live2d老婆放进自己的博客