当前位置：首页 > news >正文

Bert浅谈

news 2025/8/3 21:02:20

优点

首先，bert的创新点在于利用了双向transformer，这就跟openai的gpt有区别，gpt是采用单向的transformer，而作者认为双向transformer更能够融合上下文的信息。这里双向和单向的区别在于，单向只跟当前位置之前的tocken相连，双向与当前位置之后的tocken也有连接。跟ELMo相比的优势在于，transformer对特征的提取能力比lstm要强得多。
在这里插入图片描述

模型输入

首先是对输入的句子做tocken embedding，也就是将句子映射为一维向量，可以是word2vec的结果，猜想一下，如果不是维度过高也可以是one-hot，第二部分segment embedding 是在模型训练过程中自动学习得到的，猜想这里可以用全连接，也可以用transformer，最后是position embedding，主要用以区别“我喜欢妈妈”和“妈妈喜欢我”，虽然这两句话的单词一样，但是因为位置不同，所以含义不同。
在这里插入图片描述

模型参数

BERTBASE (L=12, H=768, A=12, Total Parameters=110M)

BERTLARGE (L=24, H=1024,
A=16, Total Parameters=340M).

L表示层数，H为隐层维度，A为注意力头的数量

两种任务

Masked LM

这个任务主要是随机将某句话的某几个位置做处理，这里的处理可能是3种，80%的概率用[mask]代替，10%的概率保留原来的单词，10%的概率用其他单词代替。就像是英语考试中的完形填空
在这里插入图片描述

Next Sentence Prediction (NSP)

主要利用输入的第一个tocken[cls]和中间的tocken[sep]，其中cls用来表示后面一句是否为前一句的下一句，sep表示两个句子的间隔。从文本语料库中随机选择 50% 正确语句对和 50% 错误语句对进行训练。就像是与语文中的句子排序。

参考：BERT模型的详细介绍

http://www.lryc.cn/news/234802.html

相关文章：

产品运营的场景和运营策略

C#异常捕获try catch详细介绍

切换阿里云ES方式及故障应急处理方案

CTFhub-RCE-过滤空格

无需添加udid，ios企业证书的自助生成方法

【PTA题目】6-20 使用函数判断完全平方数分数 10

Nas搭建webdav服务器并同步Zotero科研文献

一句话总结敏捷实践中不同方法

【数据结构】线段树（点修区查）

Ansys Lumerical | 用于增强现实系统的表面浮雕光栅

【Ubuntu】设置永不息屏与安装 dconf-editor

gRPC 的原理介绍带你从头了解gRPC

肖sir__linux讲解（2.1）

The ultimate UI kit and design system for Figma 组件库下载

Selenium——利用input标签上传文件

C++初阶日期类的实现(下)

大师学SwiftUI第16章 - UIKit框架集成

7.docker运行redis容器

未定义与 ‘double‘ 类型的输入参数相对应的函数 ‘Link‘

为什么Transformer模型中使用Layer Normalization（Layer Norm）而不是Batch Normalization（BN）

Vite - 配置 - 文件路径别名的配置

phpStorm Xdebug调试加FireFox浏览器

多维时序 | MATLAB实现PSO-BiGRU-Attention粒子群优化双向门控循环单元融合注意力机制的多变量时间序列预测

linux配置固定ip（两种方法）

什么是缓存雪崩、击穿、穿透？

可以通过电脑远程控制安卓设备的软件

HP惠普暗影精灵9笔记本电脑OMEN by HP Transcend 16英寸游戏本16-u0000原厂Windows11系统