当前位置: 首页 > news >正文

论文阅读——BART

Arxiv: https://arxiv.org/abs/1910.13461

一个去噪自编码器的预训练序列到序列的模型。是一个结合了双向和自回归transformers的模型。

预训练分为两个阶段:任意噪声函数破坏文本和序列模型重建原始文本

一、模型

input:被破坏的文本-->bidirectional encoder-->left-to-right autoregressive decoder-->output

标准transformers模型,encoder 6层,decoder 12层

其他细节:激活函数把ReLU换成GeLUs

1、预训练:

        允许输入任意类型噪声破坏的文本,极端情况下,如果任意信息都丢失,BART等同于语言模型。

        Token Masking:和BERT一样

        Token Deletion:随机抽取到的token删除(Token Masking是抽取到的token用mask代替,这个是随机抽取到的token删除),模型可以学习到什么位置的token丢失了

        Text Infilling:对多个文本跨度进行采样,跨度长度取自泊松分布,可以教模型预测一个跨度中缺少多少tokens

        Sentence Permutation:文章句子打乱顺序

        Document Rotation:文章中随机找到一个token,将文章翻转,以该token作为文章的开头

2、微调:

        各下游任务微调

二、Loss:交叉熵

http://www.lryc.cn/news/208211.html

相关文章:

  • InstructionGPT
  • 电脑视频怎么转音频mp3
  • java 读取pdf文件内容
  • 【linux】安装rpmrebuild
  • 设计模式——访问者模式(Visitor Pattern)+ Spring相关源码
  • SQL Delete 语句(删除表中的记录)
  • 在 Android 上测试 Kotlin 数据流
  • day43
  • 终端管理制度
  • 视频相关学习笔记
  • 神经网络中epoch、batch、batchsize区别
  • 如何将Mysql数据库的表导出并导入到另外的架构
  • 【tio-websocket】9、服务配置与维护—TioConfig
  • 数据结构—线性表(下)
  • apisix之插件开发,包含java和lua两种方式
  • 【面试经典150 | 链表】合并两个有序链表
  • 【linux】麒麟v10安装Redis主从集群(ARM架构)
  • 解决k8s删除名称空间无法强制删除的问题
  • 华为---DHCP中继代理简介及示例配置
  • 五、W5100S/W5500+RP2040树莓派Pico<UDP Client数据回环测试>
  • 死锁Deadlock
  • 【spark客户端】Spark SQL CLI详解:怎么执行sql文件、注释怎么写,支持的文件路径协议、交互式模式使用细节
  • 虹科干货 | HK-TrueNAS版本大揭秘!一文教您如何选择合适的TrueNAS软件
  • 前端html+css+js实现的2048小游戏,很完善。
  • 学习通签到
  • target采退、测评养号购物下单操作教程
  • SEACALL海外呼叫中心系统的优势包括
  • Painter:使用视觉提示来引导网络推理
  • Fedora Linux 38 安装数学动画制作工具manimgl工具包
  • 行业追踪,2023-10-26