当前位置: 首页 > news >正文

论文阅读——BERT

ArXiv:https://arxiv.org/abs/1810.04805

github:GitHub - google-research/bert: TensorFlow code and pre-trained models for BERT

 

一、模型及特点:

1、模型:

        深层双向transformer encoder结构

        BERT-BASE:(L=12, H=768, A=12)

        BERT-LARGE:(L=24, H=1024, A=16)

2、特点:

        不同任务使用统一架构,预训练和微调只有很小不同

        双向预训练模型——通过训练MLM子任务获得

二、训练:两阶段训练——预训练和微调

1、预训练:

        (1)训练设置

            1)在无标签、不同任务上训练

            2)训练两个子任务:Masked LM(MLM),Next Sentence Prediction (NSP)

                 MLM:为了双向模型

                        损失函数:cross entropy loss

                        mask:随机选择15%的位置,被选择的位置有80%mask,10%随机token,10%unchanged。训练中位置不变,但是由于每个句子不一样,所以预测的token也不是每次都一样。

                 NSP:为了理解句子关系

        (2)数据:

            BooksCorpus (800M words)、English Wikipedia (2,500M words)  extract only the text passages and ignore lists, tables, and headers.

2、微调:

预训练参数初始化,针对不对任务在有标签数据的所有参数微调,不同任务各自单独微调。

三、实验:

1、数据:

GLUE、SQuAD v1.1(问答。损失函数-最大似然,首先在TriviaQA上微调,然后在SQuAD 上微调)、SQuAD v2.0(没有在TriviaQA上微调)、The Situations With Adversarial Generations (SWAG)

http://www.lryc.cn/news/209425.html

相关文章:

  • 竞赛 深度学习人体跌倒检测 -yolo 机器视觉 opencv python
  • Springboot创建多数据源
  • 【Hello Algorithm】滑动窗口内最大值最小值
  • HTML,CSS实现鼠标划过头像,头像突出变大(附源码)
  • “爱知道”,你知道吗?
  • 基于SpringBoot+Vue的服装销售系统
  • 针对多分类问题,使用深度学习--Keras进行微调提升性能
  • 一、【Photoshop如何根据不同类型图像抠图】
  • rust - 理解borrow trait
  • review-java-basis
  • Go 语言访问 Redis 笔记
  • 【MySQL数据库重点】第二节:MySQL基础知识(基本操作)
  • 计算机网络--第一次作业
  • 网络协议--TCP的成块数据流
  • 鼎鑫鸿鄴引入“能源互联网+”理念 打造共赢
  • Qt下实现支持多线程的单例模式
  • 基于Java的宠物商店管理系统设计与实现(源码+lw+部署文档+讲解等)
  • ArcGIS中批量mxd高版本转低版本
  • 三篇论文:速览GPT在网络安全最新论文中的应用案例
  • 美术如何创建 skybox 贴图资源?
  • 【Linux 用户,用户组管理】
  • VS2022 C# 读取 excel 2023年
  • C# | Chaikin算法 —— 计算折线对应的平滑曲线坐标点
  • day44
  • python常用操作汇总
  • 赴日IT培训 日本IT行业为啥吃香?
  • 2016年亚太杯APMCM数学建模大赛A题基于光学信息数据的温度及关键元素含量预测求解全过程文档及程序
  • 一文讲明:企业知识库的作用和搭建方法
  • 技术的新浪潮:从SOCKS5代理到跨界电商的未来
  • Android intent的一些小使用