当前位置: 首页 > news >正文

[论文笔记]NEZHA

引言

今天带来华为诺亚方舟实验室提出的论文NEZHA,题目是 针对中文中文语言理解神经网络上下文表示(NEural contextualiZed representation for CHinese lAnguage understanding),为了拼出哪吒。

预训练语言模型由于具有通过对大型语料库进行预训练来捕获文本中深层上下文信息的人能力,因此在各种自然语言理解任务中均取得了巨大成功。然而,对中文预训练模型BERT仍然存在很大的优化空间。

本篇工作提出在中文语料库上进行预训练的语言模型NEZHA,针对BERT在中文数据集上的不足进行了优化,包括作为有效位置编码方法的功能相对位置编码(Functional )、全词掩码策略(Whole Word Masking strategy,WWM)、混合精度训练(Mixed Precision Training,MPT)和用于训练模型的LAMB优化器。

总体介绍

现存的预训练语言模型大多数基于英文语料(BooksCorpus和英文维基百科)训练,也有一些专门为中文语言训练的尝试,包括谷歌的Bert-chinese、ERNIE-Baidu和BERT-WWM。所有的这些模型都基于Transformer,通过两个无监督学习任务训练:MLM和NSP。在中文模型中主要的区别之一在于MLM任务中的掩码策略。谷歌的BERT屏蔽每个中文字符或WordPiece标记。ERNIE-Baidu进一步通过屏蔽实体或短语,每个实体或短语可能包含多个字符或标记。BERT-WWM采用了类似的策略,称为整词掩码(While Word Masking

http://www.lryc.cn/news/204615.html

相关文章:

  • 【Linux】认识协议
  • Hadoop3教程(三十四):(生产调优篇)MapReduce生产经验汇总
  • Unity⭐️Win和Mac安卓打包环境配置
  • STM32F4XX之串口
  • 【J-Long Group Limited】申请1500万美元纳斯达克IPO上市
  • 上传文件到google drive
  • 用VLOOKUP快速合并两个表格
  • Vue ref属性
  • 【python入门】函数,类和对象
  • alibaba.fastjson的使用(二)-- jar包导入
  • A_搜索(A Star)算法
  • Tinywebserve学习之linux 用户态内核态
  • AI之浅谈
  • 20231024后端研发面经整理
  • 【前段基础入门之】=>CSS3新增渐变颜色属性
  • 深入浅出排序算法之归并排序
  • opencv dnn模块 示例(19) 目标检测 object_detection 之 yolox
  • 微信小程序阻止返回事件
  • YOLOv7改进:新颖的上下文解耦头TSCODE,即插即用,各个数据集下实现暴力涨点
  • Unity中Shader阴影的接收
  • ✔ ★【备战实习(面经+项目+算法)】 10.22学习时间表(总计学习时间:4.5h)(算法刷题:7道)
  • Amazonlinux2023(AL2023)获取metadata
  • C++(Chapter 3)
  • 优化单元测试效率:Spring 工程启动耗时统计
  • 华纳云:连接mysql出现2059错误怎么解决
  • 零基础Linux_22(多线程)线程控制和和C++的多线程和笔试选择题
  • docker版本的Jenkins安装与更新技巧
  • [C++]3.类和对象下(this指针补充)+ 类和对象中构造函数和析构函数。
  • OpenLDAP LDIF详解
  • Leetcode.33 搜索旋转排序数组