当前位置：首页 > news >正文

LLM的原理理解6-10：6、前馈步骤7、使用向量运算进行前馈网络的推理8、注意力层和前馈层有不同的功能9、语言模型的训练方式10、GPT-3的惊人性能

news 2025/6/26 15:09:53

LLM的原理理解6-10：

6、前馈步骤

7、使用向量运算进行前馈网络的推理

8、注意力层和前馈层有不同的功能

注意力：特征提取

前馈层：数据库

9、语言模型的训练方式

10、GPT-3的惊人性能

一个原因是规模

大模型GPT-1。它使用了768维的词向量，共有12层，总共有1.17亿个参数。

OpenAI发布了GPT-2，其最大版本拥有1600维的词向量，48层，总共有15亿个参数。

2020年，GPT-3，它具有12288维的词向量，96层，总共有1750亿个参数。

今年，GPT-4。该公司尚未公布任何架构细节，GPT-4比GPT-3要大得多。

注释：

LLM的原理理解6-10：

6、前馈步骤

在注意力头在词向量之间传输信息后，前馈网络会“思考”每个词向量并尝试预测下一个词。在这个阶段，单词之间没有交换信息，前馈层会独立地分析每个单词。然而，前馈层可以访问之前由注意力头复制的任何信息。以下是GPT-3最大版本的前馈层结构。

绿色和紫色的圆圈表示神经元：它们是计算其输入加权和的数学函数。

前馈层之所以强大，是因为它有大量的连接。我们使用三个神经元作为输出层，六个神经元作为隐藏层来绘制这个网络，但是GPT-3的前馈层要大得多：输出层有12288个神经元（对应模型的12288维词向

查看全文

http://www.lryc.cn/news/491049.html

Electron开发构建工具electron-vite(alex8088)添加VueDevTools(VitePlugin)

【C++】static修饰的“静态成员函数“--静态成员在哪定义?静态成员函数的作用?

=computed() =ref()

webgl threejs 云渲染(服务器渲染、后端渲染)解决方案

【shell编程】函数、正则表达式、文本处理工具

解决 npm xxx was blocked, reason: xx bad guy, steal env and delete files

如何进行高级红队测试：OpenAI的实践与方法

Java：二维数组

Android 天气APP（三十七）新版AS编译、更新镜像源、仓库源、修复部分BUG

Xilinx IP核(3)XADC IP核

计算机网络socket编程(2)_UDP网络编程实现网络字典

c#窗体列表框（combobox）应用——省市区列表选择实例

uni-app 发布媒介功能（自由选择媒介类型的内容）设计

How to update the content of one column in Mysql

uniapp将图片url转换成base64支持app和h5

odoo17 档案管理之翻译2

风尚云网前端学习：制作一款简易的在线计算器

Android蓝牙架构，源文件目录/编译方式学习

ubuntu中使用ffmpeg和nginx推流rtmp视频

strongswan测试流程

[CKS] CIS基准测试，修复kubelet和etcd不安全项

Linux/Windows/OSX 上面应用程序重新启动运行。

LLM的原理理解6-10：

6、前馈步骤

相关文章：