当前位置: 首页 > news >正文

transformer学习笔记-导航

本系列专栏,主要是对transformer的基本原理做简要笔记,目前也是主要针对个人比较感兴趣的部分,包括:神经网络基本原理、词嵌入embedding、自注意力机制、多头注意力、位置编码、RoPE旋转位置编码等部分。transformer涉及的知识体系比较庞大,还有待持续深入。以下各部分的笔记,我尽可能通过图示和极简的代码DEMO说明,以加深对原理的理解。

主要内容

一、transformer学习笔记-神经网络原理
二、transformer学习笔记-词嵌入embedding原理
三、transformer学习笔记-自注意力机制(1)(原理部分)
四、transformer学习笔记-自注意力机制(2)(代码部分)
五、transformer学习笔记-位置编码











参考:

神经网络部分
深度!图解神经网络的数学原理
卷积神经网络(CNN)基础知识整理
什么是欠拟合和过拟合,以及如何避免
深度学习之神经网络的结构 Part 1 ver 2.0
深度学习之梯度下降法 Part 2 ver 0.9 beta
深度学习之反向传播算法 上/下 Part 3 ver 0.9 beta

词嵌入部分
Embedding技术的本质(图解)
没有思考过 Embedding,不足以谈 AI
https://blog.51cto.com/u_15671528/5929544
如何在7分钟内彻底搞懂word2vec
词嵌入、word2vec模型,如何将文字转化为数值
word2vec连续词袋模型CBOW详解
什么是词嵌入,Word Embedding算法

注意力部分
三种Transformer模型中的注意力机制介绍及Pytorch实现:从自注意力到因果自注意力
如何理解attention中的Q,K,V?
超详细图解Self-Attention
全方位解析Transformer模型:一文彻底掌握其架构、原理与应用精髓!
transformer中的attention为什么scaled?
从梯度最大化看Attention的Scale操作
为什么Attention计算公式中,QK的点积要除以根号d
直观解释注意力机制,Transformer的核心
白话transformer(二)_QKV矩阵
transformer的细节到底是怎么样的?Transformer 连环18问!
Attention is all you need

位置编码部分
图解Transformer系列一:Positional Encoding(位置编码)
transformer 中的 RoPE 位置编码
大模型系列:快速通俗理解Transformer旋转位置编码RoPE
RoPE原论文
十分钟读懂旋转编码(RoPE)
再论大模型位置编码及其外推性(万字长文)
【大模型理论篇】RoPE旋转位置编码底层数学原理分析

http://www.lryc.cn/news/504779.html

相关文章:

  • 功能篇:JAVA后端实现跨域配置
  • 防火墙内局域网特殊的Nginx基于stream模块进行四层协议转发模块的监听443 端口并将所有接收转发到目标服务器
  • 【Hive】-- hive 3.1.3 伪分布式部署(单节点)
  • C++ STL 队列queue详细使用教程
  • 【前端】JavaScript 中的 filter() 方法的理论与实践深度解析
  • 【机器学习算法】——决策树之集成学习:Bagging、Adaboost、Xgboost、RandomForest、XGBoost
  • JVM运行时数据区内部结构
  • Navicat for MySQL 查主键、表字段类型、索引
  • 如何在谷歌浏览器中实现自定义主题
  • visual studio 2022 c++使用教程
  • 曝光三要素
  • 01-2 :PyCharm安装配置教程(图文结合-超详细)
  • 类OCSP靶场-Kioptrix系列-Kioptrix Level 1
  • Maven插件打包发布远程Docker镜像
  • VisualStudio vsix插件自动加载
  • Codesoft许可管理
  • Unity3D 3D模型/动画数据压缩详解
  • ffmpeg和ffplay命令行实战手册
  • 基于MobileNet v2模型的口罩实时检测系统实现
  • NEEP-EN2-2023-Section5PartB
  • PostgreSQL17.x数据库备份命令及语法说明
  • Java实现一个带头节点的单链表
  • 【图像配准】方法总结
  • LabVIEW汽车综合参数测量
  • 三相异步电动机没有气压怎么办?
  • 软件工程书籍推荐
  • 验证集和测试集的区别
  • OpenIPC开源FPV之Adaptive-Link天空端代码解析
  • Next.js流量教程:核心 Web Vitals的改善
  • 百度智能云千帆AppBuilder升级,百度AI搜索组件上线,RAG支持无限容量向量存储!