当前位置：首页 > news >正文

05. 深入理解 GPT 架构

news 2025/8/4 1:12:11

在本章的前面，我们提到了类 GPT 模型、GPT-3 和 ChatGPT 等术语。现在让我们仔细看看一般的 GPT 架构。首先，GPT 代表生成式预训练转换器，最初是在以下论文中引入的：

通过生成式预训练提高语言理解（2018）作者：Radford 等人，来自 OpenAI，http://cdn.openai.com/research-covers/language-unsupervised/language_understanding_paper.pdf

GPT-3 是该模型的放大版本，具有更多参数并在更大的数据集上进行训练。最初的 ChatGPT 模型是通过使用 OpenAI 的 InstructGPT 论文中的方法在大型指令数据集上微调 GPT-3 而创建的，我们将在第 8 章“使用人类反馈进行微调以遵循指令”中更详细地介绍。正如我们在前面的图 1.6 中看到的，这些模型是称职的文本完成模型，可以执行其他任务，例如拼写更正、分类或语言翻译。这实际上非常了不起，因为 GPT 模型是在相对简单的下一个单词预测任务上预训练的，如图 1.7 所示。

图 1.7 在 GPT 模型的下一个单词预训练任务中，系统通过查看前面的单词来学习预测句子中即将到来的单词。这种方法有助于模型理解单词和短语在语言中通常如何组合在一起，从而形成可应用于各种其他任务的基础。

下一个单词预测任务是自我监督学习的一种形式，是自我标记的一种形式。这意味着我们不需要显式收集训练数据的标签，但可以利用

http://www.lryc.cn/news/279791.html

相关文章：

PHP开发日志 ━━ php8.3安装与使用组件Xdebug

Python - 深夜数据结构与算法之 Two-Ended BFS

langchain-Agent-工具检索

猫头虎分享：探索TypeScript的世界 — TS基础入门 ‍

Unity-生命周期函数

SQL概述及SQL分类

[VSCode] VSCode 常用快捷键

函数指针和回调函数以及指针函数

京东年度数据报告-2023全年度游戏本十大热门品牌销量（销额）榜单

秒懂百科，C++如此简单丨第十二天：ASCLL码

Qt6入门教程 4：Qt Creator常用技巧

阴盘奇门八字排盘马星位置计算方法php代码

vue3 使用 jsoneditor

若依前后端分离版使用mybatis-plus实践教程

SpringBoot-Dubbo-Zookeeper

华为HCIE课堂笔记第十二章 ICMPv6和NDP协议

GNSS科研常用相关网站及资源

进程的创建与回收学习笔记

【CCNet】《CCNet：Criss-Cross Attention for Semantic Segmentation》

Qt QSQlite数据库插入字符串中存在单个双引号或单个单引号解决方案

Linux系统中的IP地址、主机名、和域名解析

soc算法【周末总结】

SpringBoot之优化高并发场景下的HttpClient并提升QPS

go-zero 如何在任意地方获取yaml中的值

C++20结构化绑定应用实例(二百五十六)

改进YOLOv8注意力系列四：结合中心化特征金字塔EVCBlock、大核卷积注意力LKA_Attention、全局注意力MobileViTAttention

idea中使用Lombok 失效，@Slf4j 找不到符号的解决办法

MySQL修炼手册8：约束与完整性：保证数据的一致性

React入门 - 03(初识 React 组件和 JSX)

华为OD机试 - 反射计数（Java JS Python C）