当前位置: 首页 > news >正文

论文精读之BERT

目录

1.摘要(Abstract)

2.引言(Introduction):

3.结论(Conlusion):

4.BERT模型算法:

5.总结


1.摘要(Abstract)

与别的文章的区别是什么:BERT是用来设计去训练深的 双向的 表示,使用没有标号的数据,再联合左右的上下文信息。(改进在什么地方)

效果有多好:在11个NLP任务上取得了很好的效果。需要讲清绝对精读以及相对精读。(结果好在哪)


2.引言(Introduction):

语言模型的简单介绍:1.建模这些句子之间的关系 2.实体命名的识别

摘要第一段的扩充:用预训练模型做特征表示的时候,使用的两种策略:基于特征与基于微调

主要想法:

如何解决所遇到的问题: BERT是用来减轻之前提到过的语言模型,选用一种带掩码的语言模型(masked language model )


贡献点:双向信息的重要性(句子从左看到右,从右看到左)、在BERT上做微调效果很好、代码开源


3.结论(Conlusion):

无监督的预训练很重要(在计算机视觉领域,在没有标签的数据集上做训练比在有标签的数据集上做训练效果会更好);主要贡献是将这些发现进一步推广到深度双向架构,使相同的预训练模型能够成功处理一系列的 NLP 任务。

4.BERT模型算法:

BERT中的两个步骤:

预训练:在预训练里面,BERT模型是在一个没有标号的数据上进行训练的

微调:在微调时同样适用一个BERT模型,在它的权重就是被初始化成我们在预训练中间得到的那个权重,所有的权重在微调时都会被参与训练(用的是有标号的数据)。

 

预训练与微调之间不一样的部分:

预训练中两个关键的东西:目标函数与做预训练的数据

BERT的架构:

就是一个多层的transformer的编码器

5.总结


在本篇论文的结论中最大贡献是双向性(在写一篇论文的时候,最好有一个卖点,而不是这里好那里也好)。
选了选双向性带来的不好是什么?做一个选择会得到一些,也会失去一些。
缺点是:与GPT(Improving Language Understanding by Generative Pre-Training)比,BERT用的是编码器,GPT用的是解码器。BERT做机器翻译、文本的摘要(生成类的任务)不好做。
但分类问题在NLP中更常见。
完整解决问题的思路:在一个很大的数据集上训练好一个很宽很深的模型,可以用在很多小的问题上,通过微调来全面提升小数据的性能(在计算机视觉领域用了很多年),模型越大,效果越好(很简单很暴力)。

http://www.lryc.cn/news/100687.html

相关文章:

  • 实战:Docker+Jenkins+Gitee构建CICD流水线
  • 7.25 Qt
  • P1420 最长连号
  • UVA-1354 天平难题 题解答案代码 算法竞赛入门经典第二版
  • 电机故障诊断(python程序,模型为CNN结合LSTM)
  • ubuntu 20.04 rtc时间显示问题探究
  • 数值分析第七章节 用Python实现非线性方程与方程组的数值解法
  • 利用MATLAB制作DEM山体阴影
  • ubuntu 使用 rsync 的 SSH 方式同步备份远程WEB服务器
  • 机器学习 | Python实现NARX模型预测控制
  • M5ATOMS3基础03给ROS1发一个问候(rosserial)
  • 基于Vue3实现鼠标按下某个元素进行移动,实时改变左侧或右侧元素的宽度,以及点击收起或展开的功能
  • 使用MyBatis(2)
  • 【FPGA/D6】
  • 【WebGIS实例】(10)Cesium开场效果(场景、相机旋转,自定义图片底图)
  • 【Spring】IOC的原理
  • AI加速游戏开发 亚马逊云科技适配3大场景,打造下一代游戏体验
  • C++ | 继承(基类,父类,超类),(派生类,子类)
  • Commands Of Hadoop
  • SQL-每日一题【620.有趣的电影】
  • linux 精华总结
  • Eureka 学习笔记2:客户端 DiscoveryClient
  • okhttp原理分析
  • freeswitch的mod_xml_curl模块
  • 高速数据采集专家-FMC140【产品手册】
  • 【SSM】知识集锦
  • Flowable-中间事件-信号中间抛出事件
  • 【算法基础:动态规划】5.3 计数类DP(整数拆分、分拆数)
  • 封装(Encapsulation)
  • php 原型模式