当前位置: 首页 > news >正文

TransFormer 视频笔记

TransFormer

  • Basics
  • Attention
    • 单头注意力 single head attention
      • Q: query 查寻矩阵 128*12288
      • K key matrix 128*12288
      • SoftMax 归一 ![在这里插入图片描述](https://i-blog.csdnimg.cn/direct/19e3cf1ea28442eca60d5fc1303921f4.png)
      • Value matrix 12288*12288
  • MLP

Basics

接受一段文本,输出一个单词。

token -> (Embeding)-> high dimensional vector. 方向对应语义
​​​​​​​​​​​​
嵌入向量
在这里插入图片描述
最初的向量也包含位置信息。1万多维。

Attention

attetnion数学含义
除以dk 是为了数值稳定

将上下文的信息传给当前token。
移动向量
attention机制给最初的generic embedding加个向量,将其移动到上下文对应的具体方向上。
Attention不仅精细化了嵌入向量的定义,还能将嵌入向量的信息传给其他的向量。
简图
经过多层attention后,预测下一个token的计算过程完全取决于最后一个向量。

单头注意力 single head attention

在这里插入图片描述

Q: query 查寻矩阵 128*12288

在这里插入图片描述
WQ 将E(嵌入向量)映射低维空间中。Q是128*1

K key matrix 128*12288

Key矩阵同样将嵌入向量映射到低维空间中,得到第二个向量序列。当key与query的方向一致时(两个向量的点积越大越相关),就能认为他们匹配。
在这里插入图片描述
在这里插入图片描述

SoftMax 归一 在这里插入图片描述

Masking
Masking: 在训练时,不能提前知道答案,后级的信息不能传递给前级。为了避免后级token对前级的影响,将下半边矩阵设为-∞。
attention  patttern
该pattern表明每个词与其他哪些词相关

Value matrix 12288*12288

在这里插入图片描述

在这里插入图片描述
在这里插入图片描述

MLP

在这里插入图片描述
在这里插入图片描述

http://www.lryc.cn/news/453051.html

相关文章:

  • 前端的混合全栈之路Meteor篇(三):发布订阅示例代码及如何将Meteor的响应数据映射到vue3的reactive系统
  • 自动驾驶系列—颠覆未来驾驶:深入解析自动驾驶线控转向系统技术
  • Webstorm 中对 Node.js 后端项目进行断点调试
  • VUE前后端分离毕业设计题目项目有哪些,VUE程序开发常见毕业论文设计推荐
  • 一、Spring Boot集成Spring Security之自动装配
  • 计数相关的题 Python 力扣
  • Express内置的中间件(express.json和express.urlencoded)格式的请求体数据
  • cmakelist加载Qt模块
  • 8-2.Android 任务之 CountDownTimer 编码模板(开启计时器、取消计时器)
  • Servlet的生命周期及用户提交表单页面的实现(实验报告)
  • 【Router】路由功能之IP过滤(IP Filter)功能(基于端口)介绍及实现
  • 数据结构_2.2、顺序表插入删除查找
  • 嵌入式C语言自我修养:编译链接
  • Mac制作Linux操作系统启动盘
  • PHP语言发展历程
  • Notepad++ 之 AndroidLogger插件
  • 开源2+1链动模式AI智能名片O2O商城小程序源码:线下店立体连接的超强助力器
  • 我为什么决定关闭ChatGPT的记忆功能?
  • 如何使用ssm实现中学生课后服务的信息管理与推荐+vue
  • 【分别为微服务云原生】9分钟ActiveMQ延时消息队列:定时任务的革命与Quartz的较量
  • 泛型编程--模板【C++提升】(特化、类属、参数包的展开、static、模板机制、重载......你想知道的全都有)
  • 安卓使用memtester进行内存压力测试
  • Dave Cheney: Go语言之禅
  • SpringMVC源码-AbstractUrlHandlerMapping处理器映射器将实现Controller接口的方式定义的路径存储进去
  • 满填充透明背景二维码生成
  • Python | Leetcode Python题解之第452题用最少数量的箭引爆气球
  • 代码随想录 | Day26 | 二叉树:二叉搜索树中的插入操作删除二叉搜索树中的节点修剪二叉搜索树
  • 使用Apifox创建接口文档,部署第一个简单的基于Vue+Axios的前端项目
  • TCP的第三次握手没有回复,会出现哪些问题现象
  • 【工具】arxiv_latex_cleaner 去除latex注释