当前位置: 首页 > article >正文

Bert预训练任务-MLM/NSP

MLM

        MLM:Masked Language Mode:在每一个训练序列中以15%的概率随机地选中某个token进行MASK,当一个token被选中后,有以下三种处理方式:

  1. 80%的概率被[MASK],如my dog is hairy->my dog is [MASK]
  2. 10%的概率修改为随机的其他token,如my dog is hairy->my dog is apple
  3. 10%的概率修改为随机的其他token,如my dog is hairy->my dog is hairy

        然后再对该位置的MASK进行预测。以上的MLM任务让BERT针对被MASK的token的上下文信息预测目标token。

NSP

        NSP:Next Sentence Prediction,对于每一个训练样例,进行如下操作。

  1. 50%的概率保持原有顺序(标注为lsNext)
  2. 50%的概率后面的句子被替换为文档的其他随机句B(标注为NotNext)。接下来把训练样例输入到BERT模型中,用[CLS]对应的信息去进行二分类。

http://www.lryc.cn/news/2384025.html

相关文章:

  • 微信小程序之Promise-Promise初始用
  • 准备好,开始构建:由 Elasticsearch 向量数据库驱动的 Red Hat OpenShift AI 应用程序
  • spring的注入方式都有什么区别
  • RNN神经网络
  • Linux | 开机自启动设置多场景实现
  • 杨校老师竞赛课之青科赛GOC3-4年级组模拟题
  • 设计杂谈-工厂模式
  • SC3000智能相机-自动存图
  • (高级)高级前端开发者指南:框架运用与综合实战
  • 【Java高阶面经:微服务篇】5.限流实战:高并发系统流量治理全攻略
  • 2025中青杯数学建模B题思路+模型+代码
  • 记录:uniapp 上线部署到微信小程序vendorjs包过大的问题
  • 如果教材这样讲--碳膜电阻、金属氧化膜电阻、金属膜电阻、保险丝电阻、绕线电阻的区别和用途
  • Vue 3.0中异步组件defineAsyncComponent
  • dedecms织梦全局变量调用方法总结
  • 新手到资深的Java开发编码规范
  • asp.net core 添加 EntityFrame
  • 微软全新开源的Agentic Web网络项目:NLWeb,到底是什么 ?
  • Idea出现 100% classes 等
  • 【学习笔记】计算机操作系统(五)—— 虚拟存储器
  • 构建基于全面业务数据的大数据与大模型企业护城河战略
  • centos系统redis-dump安装
  • 乘最多水的容器 | 算法 | 给定一个整数数组。有n条垂线。找出其中的两条线,使得它们与 x 轴共同构成的容器可以容纳最多的水。
  • Python项目文件组织与PyCharm实践:打造高效开发环境
  • 【Java高阶面经:数据库篇】19、分库分表查询困境:无分库分表键时的高效应对
  • spring中的BeanFactoryAware接口详解
  • Unity Hub打不开项目一直在加载
  • 蓝桥杯19681 01背包
  • 服务器操作系统调优内核参数(方便查询)
  • ElasticSearch导读