当前位置: 首页 > news >正文

Bert各种变体——RoBERTA/ALBERT/DistillBert

RoBERTa

在这里插入图片描述

  1. 会重复一个语句10次,然后每次都mask不同的15%token。
  2. 丢弃了NSP任务,论文指出NSP任务有时甚至会损害性能。
  3. 使用了BPE

ALBERT

在这里插入图片描述

1. 跨层参数共享

可以共享多头注意力层的参数,或者前馈网络层的参数,或者全部共享。
实验结果发现,共享注意力层基本没有性能损失。

2. 词向量因式分解:

将词汇表改成两个矩阵乘。

3. 句子顺序预测

加入句子顺序预测任务,代替NSP任务。句子预测分为正序还是倒序。

DistillBERT

在这里插入图片描述
在这里插入图片描述

1. 有监督损失:

[MASK]对应的输出的损失

2. 蒸馏损失

使用teacher模型的概率作为指导信号,也是交叉熵,但是此时是软标签。

3. 词向量余弦函数

计算隐含层,教师模型和学生模型的向量余弦距离。

http://www.lryc.cn/news/510370.html

相关文章:

  • Go入门篇:(一)golang的安装和编辑工具安装
  • 【技术实战】R语言统计分析与可视化从入门到精通
  • 【Lua之·Lua与C/C++交互·Lua CAPI访问栈操作】
  • LabVIEW实现LoRa通信
  • 【数字化】华为数字化转型架构蓝图-2
  • 【Agent】AutoGen Studio2.0开源框架-UI层环境安装+详细操作教程(从0到1带跑通智能体AutoGen Studio)
  • Linux 网络配置基础
  • 科技创新 数智未来|清科·沙丘投研院走进竹云
  • Java 常见面试算法题汇总与解析
  • 【社区投稿】自动特征auto trait的扩散规则
  • 云原生相关的 Go 语言工程师技术路线(含博客网址导航)
  • mui框架开发的手机APP——众筹约课类【只有前端,无后端】
  • Python的内存管理
  • VSCode调试
  • Direct Preference Optimization (DPO) 简介与流程解析:中英双语
  • fisco-bcos手动搭建webase启动注意事项
  • ospf 的 状态机详解
  • TP5 动态渲染多个Layui表格并批量打印所有表格
  • spring专题笔记(六):bean的自动装配(自动化注入)-根据名字进行自动装配、根据类型进行自动装配。代码演示,通俗易懂。
  • 监听器listener
  • 重温设计模式--10、单例模式
  • Flutter动画学习二
  • 讯飞语音听写WebApi(流式)【React Native版】
  • 【Linux编程】一个基于 C++ 的 TCP 客户端异步(epoll)框架(一))
  • PG备份恢复--pg_dump
  • pikachu靶场搭建详细步骤
  • HarmonyOS NEXT开发进阶(五):装饰器讲解
  • 【编译原理】往年题汇总(山东大学软件学院用)
  • 【漏洞复现】F5 BIG-IP Next Central Manager SQL注入漏洞(CVE-2024-26026)
  • 设计模式-创建型-单例模式