当前位置：首页 > news >正文

Transformer的前世今生 day09（Transformer的框架概述）

news 2025/8/26 15:40:14

前情提要

编码器-解码器结构

如果将一个模型分为两块：编码器和解码器
那么编码器-解码器结构为：编码器负责处理输入，解码器负责生成输出
流程：我们先将输入送入编码器层，得到一个中间状态state，并送入解码器层，和额外的输入一同处理后，得到模型的输出
CNN就可以重新表示为下图
RNN也可以表示为下图：

Seq2seq

序列到序列的模型：从一个句子生成到另一个句子
模型分为编码器、解码器两部分，其中，编码器可以是一个RNN，用来读取输入句子，解码器使用另外一个RNN来输出生成的句子
注意：由于在输入时，我们知道全部的输入句子，所以可以用两个RNN做双向，但是解码器是生成模型，不能看到完整的句子，所以不能做双向
注意：在编码器层，通过开始<bos>、结束<eos>来控制编码器的输出
编码器层的输出是不会作为模型的输出，相反它最后一层的输出作为编码器层输入的一部分，和编码器层额外的输入合并，整体作为编码器层的输入，即编码器层的最后隐藏状态，作为解码器的初始隐藏状态，如下：

Transformer的框架概述

NLP中预训练的目的：为了生成词向量
Transformer采用了seq2seq（序列到序列）的模型，整体框架如下：
- seq2seq的模型基本都分为编码器层和解码器层，即从编码器到解码器的结构

使用机器翻译的场景来解释

在机器翻译的场景中：
- 编码器层：把输入变成一个词向量
- 解码器层：得到编码器层输出的词向量后，生成翻译的结果
同时，N * 的意思是：编码器层里面又有N个小编码器（默认N=6），一个编码器可以看作Self-Attention，而Self-Attention会对词向量做增强，经过6个编码器，那就是增强了6次
编码器层最后的输出会分别给6个解码器
因此，Transformer的关键就在于编码器和解码器，如下：

http://www.lryc.cn/news/326857.html

相关文章：

Qt 压缩/解压文件

【leetcode刷题之路】面试经典150题（8）——位运算+数学+一维动态规划+多维动态规划

JetBrains全家桶激活，分享 WebStorm 2024 激活的方案

Sublime 彻底解决中文乱码

复旦大学EMBA校友出席两会建言献策助力中国发展

virtualbox导入vdi

【信号处理】基于DGGAN的单通道脑电信号增强和情绪检测（tensorflow）

使用 Docker Compose 部署 Spring Boot 应用

nginx 正向代理 https

vue3从其他页面跳转页面头部组件菜单el-menu菜单高亮

python 条件循环语句

CIM搭建实现发送消息的效果

C++第十三弹---内存管理(下)

Python爬虫学习完整版

JavaScript中的继承方式详解

Git基础(23):Git分支合并实战保姆式流程

为什么有些前端一直用 div 当按钮，而不是用 button？

python实战之基础篇(一)

第十四届蓝桥杯大赛软件赛省赛C/C++ 大学 B 组（补题）

蓝桥杯刷题--python-32

单例模式如何保证实例的唯一性

IntelliJ IDE 插件开发 | （七）PSI 入门及实战（实现 MyBatis 插件的跳转功能）

【教程】iOS如何抓取HTTP和HTTPS数据包经验分享

基于javaweb(springboot)汽车配件管理系统设计和实现以及文档报告

Spring Cloud Gateway Server MVC

建立动态MGRE隧道的配置方法

【MySQL】9. 内置函数

芯片工程系列（5）2.5D 3D封装

KubeSphere简单介绍及安装使用

Java零基础-集合：Java 8新增的集合操作