当前位置: 首页 > news >正文

05. 深入理解 GPT 架构

在本章的前面,我们提到了类 GPT 模型、GPT-3 和 ChatGPT 等术语。现在让我们仔细看看一般的 GPT 架构。首先,GPT 代表生成式预训练转换器,最初是在以下论文中引入的:

通过生成式预训练提高语言理解 (2018) 作者:Radford 等人,来自 OpenAI,http://cdn.openai.com/research-covers/language-unsupervised/language_understanding_paper.pdf

GPT-3 是该模型的放大版本,具有更多参数并在更大的数据集上进行训练。最初的 ChatGPT 模型是通过使用 OpenAI 的 InstructGPT 论文中的方法在大型指令数据集上微调 GPT-3 而创建的,我们将在第 8 章“使用人类反馈进行微调以遵循指令”中更详细地介绍。正如我们在前面的图 1.6 中看到的,这些模型是称职的文本完成模型,可以执行其他任务,例如拼写更正、分类或语言翻译。这实际上非常了不起,因为 GPT 模型是在相对简单的下一个单词预测任务上预训练的,如图 1.7 所示。

图 1.7 在 GPT 模型的下一个单词预训练任务中,系统通过查看前面的单词来学习预测句子中即将到来的单词。这种方法有助于模型理解单词和短语在语言中通常如何组合在一起,从而形成可应用于各种其他任务的基础。

下一个单词预测任务是自我监督学习的一种形式,是自我标记的一种形式。这意味着我们不需要显式收集训练数据的标签,但可以利用

http://www.lryc.cn/news/279791.html

相关文章:

  • PHP开发日志 ━━ php8.3安装与使用组件Xdebug
  • Python - 深夜数据结构与算法之 Two-Ended BFS
  • langchain-Agent-工具检索
  • 猫头虎分享:探索TypeScript的世界 — TS基础入门 ‍
  • Unity-生命周期函数
  • SQL概述及SQL分类
  • [VSCode] VSCode 常用快捷键
  • 函数指针和回调函数 以及指针函数
  • 京东年度数据报告-2023全年度游戏本十大热门品牌销量(销额)榜单
  • 秒懂百科,C++如此简单丨第十二天:ASCLL码
  • Qt6入门教程 4:Qt Creator常用技巧
  • 阴盘奇门八字排盘马星位置计算方法php代码
  • vue3 使用 jsoneditor
  • 若依前后端分离版使用mybatis-plus实践教程
  • SpringBoot-Dubbo-Zookeeper
  • 华为HCIE课堂笔记第十二章 ICMPv6和NDP协议
  • GNSS科研常用相关网站及资源
  • 进程的创建与回收学习笔记
  • 【CCNet】《CCNet:Criss-Cross Attention for Semantic Segmentation》
  • Qt QSQlite数据库插入字符串中存在单个双引号或单个单引号解决方案
  • Linux系统中的IP地址、主机名、和域名解析
  • soc算法【周末总结】
  • SpringBoot之优化高并发场景下的HttpClient并提升QPS
  • go-zero 如何在任意地方获取yaml中的值
  • C++20结构化绑定应用实例(二百五十六)
  • 改进YOLOv8注意力系列四:结合中心化特征金字塔EVCBlock、大核卷积注意力LKA_Attention、全局注意力MobileViTAttention
  • idea中使用Lombok 失效,@Slf4j 找不到符号的解决办法
  • MySQL修炼手册8:约束与完整性:保证数据的一致性
  • React入门 - 03(初识 React 组件和 JSX)
  • 华为OD机试 - 反射计数(Java JS Python C)