当前位置: 首页 > news >正文

LLM的原理理解6-10:6、前馈步骤7、使用向量运算进行前馈网络的推理8、注意力层和前馈层有不同的功能9、语言模型的训练方式10、GPT-3的惊人性能

目录

LLM的原理理解6-10:

6、前馈步骤

7、使用向量运算进行前馈网络的推理

8、注意力层和前馈层有不同的功能

注意力:特征提取

前馈层:数据库

9、语言模型的训练方式

10、GPT-3的惊人性能

一个原因是规模

大模型GPT-1。它使用了768维的词向量,共有12层,总共有1.17亿个参数。

OpenAI发布了GPT-2,其最大版本拥有1600维的词向量,48层,总共有15亿个参数。

2020年,GPT-3,它具有12288维的词向量,96层,总共有1750亿个参数。

今年,GPT-4。该公司尚未公布任何架构细节,GPT-4比GPT-3要大得多。

注释:


LLM的原理理解6-10:

6、前馈步骤

在注意力头在词向量之间传输信息后,前馈网络会“思考”每个词向量并尝试预测下一个词。在这个阶段,单词之间没有交换信息,前馈层会独立地分析每个单词。然而,前馈层可以访问之前由注意力头复制的任何信息。以下是GPT-3最大版本的前馈层结构。

绿色和紫色的圆圈表示神经元:它们是计算其输入加权和的数学函数。

前馈层之所以强大,是因为它有大量的连接。我们使用三个神经元作为输出层,六个神经元作为隐藏层来绘制这个网络,但是GPT-3的前馈层要大得多:输出层有12288个神经元(对应模型的12288维词向

http://www.lryc.cn/news/491049.html

相关文章:

  • Electron开发构建工具electron-vite(alex8088)添加VueDevTools(VitePlugin)
  • 【C++】static修饰的“静态成员函数“--静态成员在哪定义?静态成员函数的作用?
  • =computed() =ref()
  • webgl threejs 云渲染(服务器渲染、后端渲染)解决方案
  • 【shell编程】函数、正则表达式、文本处理工具
  • 解决 npm xxx was blocked, reason: xx bad guy, steal env and delete files
  • 如何进行高级红队测试:OpenAI的实践与方法
  • Java:二维数组
  • Android 天气APP(三十七)新版AS编译、更新镜像源、仓库源、修复部分BUG
  • Xilinx IP核(3)XADC IP核
  • 计算机网络socket编程(2)_UDP网络编程实现网络字典
  • c#窗体列表框(combobox)应用——省市区列表选择实例
  • Nginx 架构与设计
  • python Flask指定IP和端口
  • 多线程 相关面试集锦
  • 【数据结构】—— 线索二叉树
  • uni-app 发布媒介功能(自由选择媒介类型的内容) 设计
  • How to update the content of one column in Mysql
  • URL在线编码解码- 加菲工具
  • Python3 爬虫 Scrapy的安装
  • QT中QString类的各种使用
  • linux 网络安全不完全笔记
  • uniapp将图片url转换成base64支持app和h5
  • odoo17 档案管理之翻译2
  • 风尚云网前端学习:制作一款简易的在线计算器
  • Android蓝牙架构,源文件目录/编译方式学习
  • ubuntu中使用ffmpeg和nginx推流rtmp视频
  • strongswan测试流程
  • [CKS] CIS基准测试,修复kubelet和etcd不安全项
  • Linux/Windows/OSX 上面应用程序重新启动运行。