当前位置: 首页 > news >正文

论文阅读——DistilBERT

ArXiv:https://arxiv.org/abs/1910.01108

Train Loss:

DistilBERT:

DistilBERT具有与BERT相同的一般结构,层数减少2倍,移除token类型嵌入和pooler。从老师那里取一层来初始化学生。

The token-type embeddings and the pooler are removed while the number of layers is reduced by a factor of 2. Most of the operations used in the Transformer architecture (linear layer and layer normalisation) are highly optimized in modern linear algebra frameworks。

we initialize the student from the teacher by taking one layer out of two.

大batch,4k,动态mask,去掉NSP

训练数据:和BERT一样

http://www.lryc.cn/news/208861.html

相关文章:

  • 202212 青少年等级考试机器人实操真题三级
  • token正确不报错,token失效后却出现报跨域错误
  • STM32中除零运算,为何程序不崩溃?
  • sprinbboot 2.7启动不生成日志文件
  • Kafka - 3.x 图解Broker总体工作流程
  • APP自动化测试 ---- Appium介绍及运行原理
  • 学习模板发布
  • Hive 视图和索引
  • EtherCAT主站SOEM-- 0 SOEM下载编译及文件功能介绍
  • 【Python机器学习】零基础掌握RFE特征选择
  • R语言的极值统计学、分位数回归、机器学习方法
  • 【SpringCloudNetflix】一图理解Spring Cloud Netflix解决了那些微服务问题?
  • C++环境配置【学习笔记(一)】
  • Python数据结构——树
  • Simulink和GUI联合使用
  • 【0基础学Java第一课】-- 初始Java
  • osg3.4的插件及功能
  • 『力扣刷题本』:轮转数组
  • Java关于实例对象调用静态变量和静态方法问题
  • 【开源】基于SpringBoot的海南旅游景点推荐系统的设计和实现
  • 字符串中的assert和strcat
  • 方舟生存进化ARK个人服务器搭建教程保姆级
  • SpringBoot可以连接RabbitMQ集群吗 ?
  • 【机器学习】KNN算法-模型选择与调优
  • NPM【问题 01】npm i node-sass@4.14.1报错not found: python2及Cannot download问题处理
  • redis集群中节点fail,noaddr
  • Fourier分析导论——第1章——Fourier分析的起源(E.M. Stein R. Shakarchi)
  • 使用Node.js软件包管理器(npm)安装TypeScript
  • 鸿蒙ArkUI-X跨端应用开发,一套代码构建多平台应用
  • 【鸿蒙软件开发】ArkTS基础组件之Gauge(环形图表)、LoadingProgress(动态加载)