当前位置: 首页 > news >正文

Attention计算中的各个矩阵的维度都是如何一步步变化的?

在Transformer模型中,各个矩阵的维度变化是一个关键的过程,涉及到输入、编码器、解码器和输出等多个阶段。以下是详细的维度变化过程:

输入阶段

  • 输入序列:假设输入序列的长度为seq_len,每个单词或标记通过词嵌入(word embedding)转换为一个固定维度的向量,维度为d_model。因此,输入矩阵的维度为(seq_len, d_model)
  • 位置编码:位置编码(Positional Encoding)通常与词嵌入向量相加,以提供序列中每个单词的位置信息。位置编码的维度与词嵌入相同,即(seq_len, d_model)

编码器(Encoder)阶段

  • 多头注意力机制(Multi-Head Attention)

    • 查询(Q)、键(K)、值(V)矩阵:输入矩阵与权重矩阵相乘得到Q、K、V矩阵。假设每个头的维度为d_k(通常d_k = d_model / num_heads),则Q、K、V的维度为(seq_len, d_k)
    • 注意力计算:Q与K的转置相乘,得到一个注意力得分矩阵,维度为(seq_len, seq_len)。经过softmax处理后,再与V相乘,得到输出矩阵,维度为(seq_len, d_k)
    • 多头拼接:将所有头的输出拼接或平均,得到最终的输出矩阵,维度为(seq_len, d_model)
  • 前馈神经网络(Feed-Forward Network)

    • 输入矩阵经过两个线性变换和非线性激活函数,最终输出的维度保持为(seq_len, d_model)

解码器(Decoder)阶段

  • 掩码多头注意力机制(Masked Multi-Head Attention)

    • 类似于编码器中的多头注意力机制,但使用了掩码来防止解码器在生成时“偷看”未来的信息。输出矩阵的维度为(seq_len, d_model)
  • 编码器-解码器注意力机制

    • 解码器的查询(Q)与编码器的键(K)和值(V)进行注意力计算,输出矩阵的维度为(seq_len, d_model)

输出阶段

  • 线性层和Softmax
    • 解码器的输出经过一个线性层,将维度从(seq_len, d_model)转换为(seq_len, vocab_size),其中vocab_size是词汇表的大小。
    • 最后通过Softmax层,得到每个单词的概率分布,用于预测下一个单词。

这些维度变化确保了Transformer模型能够有效地处理序列数据,并在各个层之间传递和转换信息。

http://www.lryc.cn/news/520334.html

相关文章:

  • 【数模学习笔记】插值算法和拟合算法
  • 探索 C++ 与 LibUSB:开启 USB 设备交互的奇幻之旅
  • 二、模型训练与优化(4):模型优化-实操
  • 3D可视化产品定制,应用于哪些行业领域?
  • Avalonia 入门笔记(零):概述
  • Unity TextMesh Pro入门
  • [论文阅读] (35)TIFS24 MEGR-APT:基于攻击表示学习的高效内存APT猎杀系统
  • 12 USART串口通讯
  • CF 368A.Sereja and Coat Rack(Java实现)
  • 清华大学、字节跳动等单位联合发布最新视觉语言动作模型RoboVLMs
  • 网络安全、Web安全、渗透测试之笔经面经总结
  • .NET Core NPOI 导出图片到Excel指定单元格并自适应宽度
  • python bs4 selenium 查找a href=javascript:();的实际点击事件和url
  • 三 BH1750 光感驱动调试1
  • UE材质节点Fresnel
  • linux的大内核锁与顺序锁
  • 用户注册模块用户校验(头条项目-05)
  • 面向对象的基本概念
  • 深度学习每周学习总结R4(LSTM-实现糖尿病探索与预测)
  • 如何使用 PHP 操作亚马逊 S3 对象云存储
  • 26_Redis RDB持久化
  • 标准Android开发jdk和gradle和gradle AGP和AndroidStudio对应版本
  • 太速科技-628-基于VU3P的双路100G光纤加速计算卡
  • 潜力巨大但道路曲折的量子计算
  • LabVIEW驱动电机实现样品自动搜索
  • React Native Hooks开发指南
  • 腾讯云AI代码助手编程挑战赛-厨房助手之AI大厨
  • ubuntu22.04 gcc,g++从10.5切换到低版本9.5
  • 在 WSL 中使用 Jupyter Notebook 的 TensorBoard 启动问题与解决方法
  • Spring Boot 2 学习全攻略