当前位置: 首页 > news >正文

Transformer的前世今生 day09(Transformer的框架概述)

前情提要

编码器-解码器结构

  • 如果将一个模型分为两块:编码器和解码器
  • 那么编码器-解码器结构为:编码器负责处理输入,解码器负责生成输出
  • 流程:我们先将输入送入编码器层,得到一个中间状态state,并送入解码器层,和额外的输入一同处理后,得到模型的输出
    在这里插入图片描述
  • CNN就可以重新表示为下图
    在这里插入图片描述
  • RNN也可以表示为下图:
    在这里插入图片描述

Seq2seq

  • 序列到序列的模型:从一个句子生成到另一个句子
  • 模型分为编码器、解码器两部分,其中,编码器可以是一个RNN,用来读取输入句子,解码器使用另外一个RNN来输出生成的句子
  • 注意:由于在输入时,我们知道全部的输入句子,所以可以用两个RNN做双向,但是解码器是生成模型,不能看到完整的句子,所以不能做双向
  • 注意:在编码器层,通过开始<bos>、结束<eos>来控制编码器的输出
    在这里插入图片描述
  • 编码器层的输出是不会作为模型的输出,相反它最后一层的输出作为编码器层输入的一部分,和编码器层额外的输入合并,整体作为编码器层的输入,即编码器层的最后隐藏状态,作为解码器的初始隐藏状态,如下:
    在这里插入图片描述

Transformer的框架概述

  • NLP中预训练的目的:为了生成词向量
  • Transformer采用了seq2seq(序列到序列)的模型,整体框架如下:
    • seq2seq的模型基本都分为编码器层和解码器层,即从编码器到解码器的结构
      在这里插入图片描述

使用机器翻译的场景来解释

  • 在机器翻译的场景中:
    • 编码器层:把输入变成一个词向量
    • 解码器层:得到编码器层输出的词向量后,生成翻译的结果
      在这里插入图片描述
  • 同时,N * 的意思是:编码器层里面又有N个小编码器(默认N=6),一个编码器可以看作Self-Attention,而Self-Attention会对词向量做增强,经过6个编码器,那就是增强了6次
  • 编码器层最后的输出会分别给6个解码器
    在这里插入图片描述
  • 因此,Transformer的关键就在于编码器和解码器,如下:
    在这里插入图片描述
http://www.lryc.cn/news/326857.html

相关文章:

  • Qt 压缩/解压文件
  • 【leetcode刷题之路】面试经典150题(8)——位运算+数学+一维动态规划+多维动态规划
  • JetBrains全家桶激活,分享 WebStorm 2024 激活的方案
  • Sublime 彻底解决中文乱码
  • 复旦大学EMBA校友出席两会建言献策助力中国发展
  • virtualbox导入vdi
  • 【信号处理】基于DGGAN的单通道脑电信号增强和情绪检测(tensorflow)
  • 使用 Docker Compose 部署 Spring Boot 应用
  • nginx 正向代理 https
  • vue3从其他页面跳转页面头部组件菜单el-menu菜单高亮
  • python 条件循环语句
  • CIM搭建实现发送消息的效果
  • C++第十三弹---内存管理(下)
  • Python爬虫学习完整版
  • JavaScript中的继承方式详解
  • Git基础(23):Git分支合并实战保姆式流程
  • 为什么有些前端一直用 div 当按钮,而不是用 button?
  • python实战之基础篇(一)
  • 第十四届蓝桥杯大赛软件赛省赛C/C++ 大学 B 组(补题)
  • 蓝桥杯刷题--python-32
  • 单例模式如何保证实例的唯一性
  • IntelliJ IDE 插件开发 | (七)PSI 入门及实战(实现 MyBatis 插件的跳转功能)
  • 【教程】iOS如何抓取HTTP和HTTPS数据包经验分享
  • 基于javaweb(springboot)汽车配件管理系统设计和实现以及文档报告
  • Spring Cloud Gateway Server MVC
  • 建立动态MGRE隧道的配置方法
  • 【MySQL】9. 内置函数
  • 芯片工程系列(5)2.5D 3D封装
  • KubeSphere简单介绍及安装使用
  • Java零基础-集合:Java 8新增的集合操作