当前位置：首页 > news >正文

【AI系列】从零开始学习大模型GPT (2)- Build a Large Language Model (From Scratch)

news 2025/8/27 13:06:35

前序文章
【AI系列】从零开始学习大模型GPT (1)- Build a Large Language Model (From Scratch)

Build a Large Language Model

- 背景
- 第1章：理解大型语言模型
- 第2章：处理文本数据
- 第3章：编码Attention机制
- - 什么是Attention机制？
  - - Attention机制的基本原理
    - 数学表示
    - 应用
    - 总结
  - 为什么要使用注意力机制
  - 如何实现？
  - - 简单注意力机制
    - 带训练权重的注意力机制
    - 紧凑注意力机制 mask attention
    - 多头注意力机制
- 第4章：从零实现GPT模型
- 第5章：在未标记数据上进行预训练
- 第6章：用于文本分类的微调
- 第7章：为指令执行进行微调
- 参考

背景

第1章：理解大型语言模型

见前序文章【AI系列】从零开始学习大模型GPT (1)- Build a Large Language Model (From Scratch)

第2章：处理文本数据

见前序文章【AI系列】从零开始学习大模型GPT (1)- Build a Large Language Model (From Scratch)

第3章：编码Attention机制

什么是Attention机制？

Attention机制是一种在深度学习中广泛应用的技术，特别是在自然语言处理（NLP）和计算机视觉等领域。它的核心思想是让模型在处理输入数据时，能够有选择地关注某些重要部分，而不是对所有部分一视同仁。这种机制可以显著提高模型的性能和效率。

Attention机制的基本原理

Attention机制的基本原理可以通过以下几个步骤来描述：

计算注意力权重（Attention Weights）：
对于每一个输入元素，计算它与其他输入元素的相关性（即注意力权重）。这些权重通常通过点积（dot product）或其他相似度度量方法来计算。
归一化权重：
使用Softmax函数将这些权重归一化，使它们的和为1。这一步确保了权重可以被解释为概率分布。
加权求和：
使用归一化后的权重对输入元素进行加权求和，得到一个新的表示。这一步的结果是模型能够更关注那些权重较高的输入元素。

数学表示

假设有一个输入序列 $[x_1, x_2, \ldots, x_n]$ ，Attention机制的计算过程可以表示为：

计算注意力权重：
$e_{ij} = \text{score}(x_i, x_j)$
其中， $\text{score}(x_i, x_j)$ 可以是点积、加性函数等。
归一化权重：
$\alpha_{ij} = \frac{\exp(e_{ij})}{\sum_{k=1}^{n} \exp(e_{ik})}$

http://www.lryc.cn/news/536643.html

相关文章：

webshell通信流量分析

数据可视化+SpringBoot+协同过滤推荐算法的美食点餐管理平台

DeepSeek 关联 Word 使用教程：解锁办公新效率

[极客大挑战 2019]Havefun1

基于Swift实现仿IOS闹钟

Threadlocal的实现原理

线程池处理异常

RabbitMQ配置SSL证书

.NET 9.0 的 Blazor Web App 项目，进度条＜progress＞组件使用注意事项

第J7周：对于ResNeXt-50算法的思考

【第2章：神经网络基础与实现——2.3 多层感知机（MLP）的构建与调优技巧】

【Elasticsearch】keyword分析器

重生之我在异世界学编程之C语言：深入预处理篇（上）目录)

MySQL数据库误删恢复_mysql 数据误删

SpringAI集成DeepSeek实战

解决 THC/THC.h: No such file or directory 报错

S4D480 S4HANA 基于PDF的表单打印

数组_移除元素

Vue2/Vue3分别如何使用Watch

C++从入门到实战（四）C++引用与inline，nullptr

Linux库制作与原理：【静态库】【动态库】【目标文件】【ELF文件】【ELF从形成到假造轮廓】【理解链接和加载】

wordpress部署nginx版的

【鸿蒙Next】优秀鸿蒙博客集锦

【第2章：神经网络基础与实现——2.1 前馈神经网络的结构与工作原理】

python-leetcode-阶乘后的零

Python：学生管理系统（继承性、多态性）。

网络安全RSA加密

Vue学习笔记4

mariadb数据库的安装与部署