当前位置：首页 > news >正文

GPT-1 与 BERT 架构

news 2025/9/10 22:27:47

GPT-1

架构特点

仅解码器架构：摈弃了传统transformer中的编码器层，而是直接用解码器和自注意力，同时抛弃掉了交叉多头注意力层，自注意力通过mask来完成计算。
注意力块添加到12个，Attention的输出维数为762维，FeedForward的升维维数增加到2048维。总参数量达1.5亿(0.15B)。
可学习的位置编码：位置编码不再使用固定的公式计算，而是作为神经网络参数的一部分进行学习。

训练过程

无监督预训练

给定一个句子，无监督预训练做的就是根据之前的token预测下一个token，每个batch里面包含的是该句子的前若干个token组成的输入，(但是实际实现中不会真的去这样做切分，而是用注意力掩码来控制注意力的计算)。输出是对应的下一个token。

每一个token的注意力嵌入最后通过前馈网络都能生成下一个token的预测，最终根据每一个token预测计算交叉熵平均损失，从而得到这个输入的训练损失。

有监督微调

与预训练的方法类似，但是存在以下两个区别：

训练数据的内容是人为标注的，符合人们对模型的工具定位，要求模型必须按用户的需求回答
在计算损失部分，不会把prompt部分的自损失计算上，而只会计算人为标注的输出部分的每个token预测的损失平均值。

GPT-1的缺陷

GPT-1使用的Transformer Decoder是单向语言模型，提取信息的能力不如Bert,但生成文本的能力很强
GPT-1针对每一个下游任务都需要训练一个模型，工作量大

BERT

架构特点

BERT是仅编码器架构，所以BERT丧失了输出文本的能力
BERT在对输入进行嵌入时，除了常规的嵌入和位置编码，BERT还会对句子的序列头和序列为进行编码。

在此处，我们可以看到两个特殊的标识符[CLS]和[SEP],它们没有自身的语义，[CLS]表示序列的开头，[SEP]表示句子的结尾。BERT的输入只会有1 - 2 个序列。

如果输入是两个序列则第二个序列的段落编码为1，否则段落编码为0.

序列编码示例：

<CLS> my dog is cute <SEP> --> 0 0 0 0 0 0
<CLS> my dog is cute <SEP> he likes play ##ing <SEP> ---> 0 0 0 0 0 0 1 1 1 1 1

训练过程

BERT的预训练过程包括两个任务：

掩码语言模型（MLM）

以 15% 的概率随机将句子中的某个token替换为 [MASK] , 随后让模型预测原位置对应的token是什么，这样可以让模型更好的捕捉语义。

存在的问题：模型过于关注[MASK]这个token，但是下游任务中并不会出现[MASK],所以可能出现过拟合的现象。
解决方案：选择完token之后，有三种选择：
- 替换为[MASK] token
- 替换为其他随机token
- 不替换

由于模型不知道句子中对应的token是否是真的原token，所以模型会尝试根据句子的语义来找到原token。

邻接序列预测（NSP）

输入两个序列，由模型判断两个序列是否在语义上是相关联的，或者说后面的序列是否在语料中与前面的序列临近。

通过CLS中的向量信息来进行二分类，因为CLS本身没有语义信息，内部的信息只能是句子整体的信息。

举例：

Input1=[CLS] the man went to [MASK] store [SEP] he bought a gallon [MASK] milk [SEP]Label1=IsNextInput2=[CLS] the man [MASK] to the store [SEP] penguin [MASK] are flight ##less birds [SEP]Label2=NotNext

应用场景

句子分类
句子情感预测
语句问答
单句标注：标注句子中出现的每一个token的标签

缺陷

BERT失去了文本生成的能力，换来了更强的信息提取能力

查看全文

http://www.lryc.cn/news/573460.html

开源项目分析：EDoRA | 了解如何基于peft实现EDoRA方法

【软考高级系统架构论文】论无服务器架构及其应用

博图SCL语言GOTO语句深度解析：精准跳转

深入解析ID3算法：信息熵驱动的决策树构建基石

GO语言---数组

基于Spring Boot瀚森健身房会员管理系统设计与实现【源码+文档】

作为测试人员，平时用什么大模型？怎么用？

《深入解析：如何通过CSS集成WebGPU实现高级图形效果》

【软考高级系统架构论文】论企业应用系统的数据持久层架构设计

【FineDance】舞蹈多样性的得来

RocketMQ--为什么性能不如Kafka？

verilog HDLBits刷题“Module cseladd”--模块 cseladd---Carry-select adder 进位选择adder

为车辆提供路径规划解决方案：技术演进、挑战与未来蓝图

【appium】2.初始连接脚本配置

C++模板基础

【AGI】突破感知-决策边界：VLA-具身智能2.0

用OBS Studio录制WAV音频，玩转语音克隆和文本转语音！

《揭开CSS渲染的隐秘角落：重排与重绘的深度博弈》

【StarRocks系列】查询优化

操作系统进程与线程核心知识全览

前端开发面试题总结-vue3框架篇（二）

钉钉智能会议室集成指纹密码锁，临时开门密码自动下发

前端登录不掉线！Vue + Node.js 双 Token 无感刷新方案

爱高集团引领转型浪潮：AI与区块链驱动香港科技资本新机遇

[C++] STL数据结构小结

Linux——Json

【系统分析师】2017年真题：综合知识-答案及详解

JVM(8)——详解分代收集算法

【基础算法】贪心 (一) ：简单贪心

Python标准库 zlib模块【数据压缩/解压】全面讲解

GPT-1

架构特点

训练过程

无监督预训练

有监督微调

GPT-1的缺陷

BERT

架构特点

训练过程

掩码语言模型（MLM）

邻接序列预测（NSP）

应用场景

缺陷

相关文章：