当前位置: 首页 > news >正文

BERT 快速理解——思路简单描述

定义:

BERT(Bidirectional Encoder Representations from Transformers)是一种预训练的语言模型,它基于Transformer架构,通过在大规模的未标记文本上进行训练来学习通用的语言表示。

输入

在BERT中,输入是一个文本序列,通常以单词或子词(如WordPiece)的形式表示。输入序列需要经过预处理步骤,包括分词、添加特殊标记(如起始标记[CLS]和分隔标记[SEP]),并转化为对应的词索引(input_ids)。此外,还需要创建一个注意力掩码(attention_mask),用于指示哪些位置是真实的单词,哪些位置是填充的。输入序列的长度通常会被填充或截断为固定长度。
在这里插入图片描述

输出

BERT模型的输出包含以下部分:

  • last_hidden_state(最后一层的隐藏状态):这是BERT模型最后一层的输出,它是一个三维张量,形状为[batch_size, sequence_length, hidden_size]。它包含了输入序列的每个位置的隐藏表示,其中hidden_size是BERT模型的隐藏单元大小。
  • pooler_output(池化层输出):这是经过池化层处理后的输出,形状为[batch_size, hidden_size]。它是对最后一层隐藏状态进行汇总得到的整个句子的表示,通常用于句子级别的任务。
  • hidden_states(所有层的隐藏状态):这是一个包含了每一层隐藏状态的张量。其中,hidden_states[0]对应输入的嵌入层,而hidden_states[i](其中1 <= i <= num_hidden_layers)对应BERT模型的第i层隐藏状态。

输出的含义:

  • last_hidden_state中的每个位置表示了输入序列在语义和句法上的编码信息,可以用于下游任务的特征提取和表示学习。
  • pooler_output是对整个句子进行汇总的表示,可以用于句子级别的分类或回归任务。
    hidden_states提供了每一层的隐藏状态,可以用于进一步的分析、可视化或其他任务的需求。

关于层数:
Transformer模型中的编码器层和解码器层的数量可以根据具体的模型架构和任务需求进行设置。通常情况下,Transformer模型由多个编码器层和解码器层组成。

在经典的Transformer模型中,如"Attention Is All You Need"论文所述,编码器和解码器都包含了6个层。这个设置是基于作者的经验和实验结果得出的,并且在许多自然语言处理任务中表现良好。

BERT模型引入了Transformer的编码器部分,因此,BERT的层数也是基于Transformer的6层编码器进行扩展的。BERT-Base模型具有12个编码器层,而BERT-Large模型具有24个编码器层。这样的设计选择是为了增加模型的表示能力和语义学习能力。

http://www.lryc.cn/news/170453.html

相关文章:

  • 二叉树实现的相关函数
  • Redis面试题(二)
  • STP介绍
  • numpy 和 tensorflow 中的各种乘法(点乘和矩阵乘)
  • (图论) 1020. 飞地的数量 ——【Leetcode每日一题】
  • c++ 重载、重写、覆盖
  • Python异步编程高并发执行爬虫采集,用回调函数解析响应
  • SpriteKit与Swift配合:打造您的第一个简易RPG游戏的步骤指南
  • 服务网格的面临挑战:探讨服务网格实施中可能遇到的问题和解决方案
  • leetcode61 旋转链表
  • 【学习笔记】各类基于决策单调性的dp优化
  • 【C++】构造函数初始化列表 ⑤ ( 匿名对象 生命周期 | 构造函数 中 不能调用 构造函数 )
  • Knife4j系列--使用方法
  • pmp项目管理考试是什么?适合哪些人学?
  • CSDN博客可以添加联系方式了
  • 小程序隐私弹窗的实现
  • 【JavaEE】多线程案例-单例模式
  • 社区分享|MeterSphere变身“啄木鸟”,助力云帐房落地接口自动化测试
  • fpga内嵌逻辑分析仪使用方法
  • 第14章 结构和其他数据形式
  • vue 把echarts封装成一个方法 并且从后端读取数据 +转换数据格式 =动态echarts 联动echarts表
  • Python基础08 面向对象的基本概念
  • APP自动化之Poco框架
  • c++拷贝构造【显式调用】和运算符=重载构造【隐式调用】解析
  • 无涯教程-JavaScript - LCM函数
  • Java多线程篇(3)——线程池
  • 那些年我们遇到过的关于excel的操作
  • Angular变更检测机制
  • Redis之String类型
  • 使用redis中的zset实现滑动窗口限流