当前位置：首页 > news >正文

Transformer架构；Encoder-Decoder；Padding Mask；Sequence Mask；

news 2025/8/17 13:34:54

目录

Transformer架构

Transformer架构的主要组成部分：

简单举例说明输入和输出：

Encoder-Decoder

编码器/解码器组成

6、位置前馈网络（Position-wise Feed-Forward Networks）

7、残差连接和层归一化

10、掩码Mask

10.1 Padding Mask

10.2 Sequence Mask

为什么需要Sequence Mask？

Sequence Mask是如何工作的？

具体实现

为什么如果没有适当的掩码机制，解码器在生成某个位置的输出时，可能会“看到”并错误地利用该位置之后的信息

Transformer架构

Transformer架构是一种基于自注意力（Self-Attention）机制的深度学习模型，广泛应用于自然语言处理（NLP）领域。它摒弃了传统的循环神经网络（RNN）或卷积神经网络（CNN）结构，通过自注意力机制来捕捉输入序列中的依赖关系，从而实现高效的序列到序列（Seq2Seq）处理。

Transformer架构的主要组成部分：

输入层（Input Layer）：
- 输入层接收原始数据（如文本），并将其转换为模型可以处理的格式。这通常包括将文本转换为词嵌入（Word Embeddings），以及添加位置编码（Positional Encoding）以保留单词在序列中的位置信息。
编码器（Encoder）：
- 编码器由多个相同的层堆叠而成，每个层都包含自注意力机制（如多头注意

http://www.lryc.cn/news/425946.html

相关文章：

【leetcode详解】特殊数组II : 一题代表了一类问题(前缀和思想)

SQL每日一练-0814

Android持久化技术—文件存储

动手学深度学习（pytorch）学习记录12-激活函数[学习记录]

微服务实战系列之玩转Docker（十）

Mysql(四)---增删查改(进阶)

SOAP @WebService WSDL

【Qt】QWidget的toolTip属性

【操作系统】什么是进程？什么是线程？两者有什么区别（面试常考！！！）

AI -- Machine Learning

了解交换机_1.交换机的技术发展

ubuntu 24.04 安装 Nvidia 显卡驱动 + CUDA + cuDNN，配置 AI 深度学习训练环境，简单易懂，一看就会！

跟李沐学AI：目标检测的常用算法

基于UE5和ROS2的激光雷达+深度RGBD相机小车的仿真指南(一)---UnrealCV获取深度+分割图像

Java算法解析一：二分算法及其衍生出来的问题

数学建模预测类—【一元线性回归】

配置更加美观的 Swagger UI

软件测试 - 基础（软件测试的生命周期、测试报告、bug的级别、与开发人员产生争执的调解方式）

RTX 4070 GDDR6显存曝光：性能与成本的平衡之选

canvas的基础使用

Windows 常用网络命令之 telnet（测试端口是否连通）

x264 编码器像素运算系列：asd8函数

什么是AR、VR、MR、XR？

Epic Games 商店面向欧盟 iPhone 用户上线

【计算机毕设项目】2025级计算机专业小程序项目推荐 (小程序+后台管理)

Fast API + LangServe快速搭建 LLM 后台

CSS继承、盒子模型、float浮动、定位、diaplay

使用百度文心智能体创建AI旅游助手

斗破C++编程入门系列之四：运算符和表达式

CVPR2024 | PromptAD: 仅使用正常样本进行小样本异常检测的学习提示