当前位置：首页 > news >正文

Chat-GPT原理

news 2025/8/11 22:24:47

Chat-GPT原理核心:基于Transformer 架构

以下是参考文献的部分截图原文说明：

Transformers are based on the “attention mechanism,” which allows the model to pay more attention to some inputs than others, regardless of where they show up in the input sequence. For example, let’s consider the following sentence:

在这里插入图片描述

In this scenario, when the model is predicting the verb “bought,” it needs to match the past tense of the verb “went.” In order to do that, it has to pay a lot of attention to the token “went.” In fact, it may pay more attention to the token “went” than to the token “and,” despite the fact that “went” appears much earlier in the input sequence.

原文简单总结：Transformer 架构它允许模型在处理输入序列时，能够同时关注输入序列中各个位置的信息，从而更好地捕捉长距离依赖关系。

Transformer 架构：

特点包括自注意力机制和位置编码，它们使得模型能够有效地捕捉输入序列的长程依赖关系。下面是 Transformer 架构的一些关键组成部分：

自注意力机制（Self-attention）：

自注意力机制允许模型在处理序列数据时将不同位置的信息进行交互。通过对每个单词或标记计算注意力权重，模型可以根据输入序列中其他位置的信息来调整每个位置的表示。这使得模型能够捕获远距离的依赖关系，从而更好地理解整个序列。

位置编码（Positional encoding）：

由于自注意力机制并不会考虑输入序列中词语的位置信息，因此需要引入位置编码来表示词语在序列中的相对位置。常用的位置编码方法包括正弦和余弦函数的组合，这样可以为不同位置的词语赋予不同的位置编码向量。

编码器-解码器结构（Encoder-Decoder architecture）：

Transformer 模型通常由编码器和解码器组成，适用于序列到序列的任务，如机器翻译。编码器用于处理输入序列，解码器用于生成输出序列。

多头注意力（Multi-head attention）：

为了增加模型对不同表示空间的关注，Transformer 使用多个注意力头来并行计算注意力权重，然后将它们的结果进行拼接和线性变换。

前馈神经网络（Feed-forward neural network）：

每个编码器和解码器层都包含一个前馈神经网络，它将每个位置的表示映射为另一个表示，通过多层前馈神经网络可以增加模型的表示能力。

除此之外，Transformer架构还使用了残差连接（residual connections）和层归一化（layer normalization）等技术来加速训练过程和提高模型性能。此外，Transformer架构还支持并行计算，使得模型能够更高效地处理大规模数据。

原文链接建议多读读：How GPT Models Work. Learn the core concepts behind OpenAI’s… | by Beatriz Stollnitz | Towards Data Science

http://www.lryc.cn/news/253587.html

相关文章：

GODOC命令无效，原因是需要手动安装

忽略python运行出现的大量警告

【Polar靶场WEB签到】

Linux详解——常用命令(二)

TCP首部格式_基本知识

MIT线性代数笔记-第23讲-微分方程，exp(At)

windows下安装配置kafka

TV遥控器模拟鼠标键

检测判断IP合法性API接口

Linux swatch命令教程：如何监控系统活动(附案例详解和注意事项)

加州大学伯克利分校研究人员推出Starling-7B：一款通过人工智能反馈强化学习（RLAIF）训练的开源大型语言模型（LLM）

腾讯面试真题（C语言）

JavaScript 函数

数据结构 | 查漏补缺之DFS、BFS、二次探测再散列法、完全二叉树、深度计算

用python实现单链表的基础操作

[头歌系统数据库实验] 实验3 MySQL的DDL语言

系统运维安全之病毒自检及防护

Mabatis处理异常屏蔽SQL返回前端全局异常捕获处理

黑豹程序员-java发邮件，发送内容支持html，带多附件的案例

[LeetCode] 15. 三数之和

Android Chips(标签)

飞行汽车开发原理（上）

22、pytest多个参数化的组合

【网络奇缘】- 如何自己动手做一个五类|以太网|RJ45|网络电缆

【从零开始学习JVM | 第三篇】类的生命周期（高频面试）

详解前后端交互时PO,DTO,VO模型类的应用场景

力扣295. 数据流的中位数

英语二笔记

【OpenSSH升级】升级后证书认证登录突然失效

pytest +uiautomator2+weditor app自动化从零开始