当前位置: 首页 > news >正文

self-attention、transformer、bert理解

参考李宏毅老师的视频 https://www.bilibili.com/video/BV1LP411b7zS?p=2&spm_id_from=pageDriver&vd_source=c67a2725ac3ca01c38eb3916d221e708
在这里插入图片描述
一个输入,一个输出,未考虑输入之间的关系!!!
在这里插入图片描述
在这里插入图片描述

self-attention考虑输入之间的关系,关于a1的输出b1的计算方法如上图所示,如此类推计算b2,b3,b4,合并考虑整体计算公式如下图所示,就是找出Wq,Wk和Wv。
在这里插入图片描述
multi-head attention:
在这里插入图片描述
transformer:
在这里插入图片描述
在这里插入图片描述
cross attention:
在这里插入图片描述

http://www.lryc.cn/news/181679.html

相关文章:

  • junit @ExcludePackages排除多个包
  • Explain执行计划字段解释说明---select_type、table、patitions字段说明
  • 云原生微服务 第六章 Spring Cloud Netflix Eureka集成远程调用、负载均衡组件OpenFeign
  • 四、2023.9.30.C++面向对象end.4
  • 【Java】包
  • Hive【Hive(二)DML】
  • HTTP的请求方法,空行,body,介绍请求报头的内部以及粘包问题
  • win10 ip设置
  • alibaba dragonwell jdk
  • jvm内存分配与回收策略
  • 【Vue2和Vue3的双向绑定区别】
  • 【再识C进阶3(下)】详细地认识字符分类函数,字符转换函数和内存函数
  • windows WSL配置cuda,pytorch和jupyter notebook
  • 回调地狱的产生=>Promise链式调用解决
  • 【设计模式】六、建造者模式
  • SpringBoot 可以同时处理多少请求
  • 嵌入式Linux应用开发-驱动大全-第一章同步与互斥②
  • EasyExcel的源码流程(导入Excel)
  • 基于 jasypt 实现spring boot 配置文件脱敏
  • Python——ASCII编码与Unicode(UTF-8,UTF-16 和 UTF-32)编码
  • 【多媒体技术与实践】音频信息获取和处理——编程题汇总
  • 堆优化迪氏最短单源路径原理及C++实现
  • Leetcode202. 快乐数
  • 【MySQL】MySql常见面试题总结
  • 【Java 进阶篇】JDBC PreparedStatement 详解
  • 嵌入式Linux应用开发-驱动大全-第一章同步与互斥①
  • 【计算机网络】 基于UDP的简单通讯(客户端)
  • 【云备份项目】:环境搭建(g++、json库、bundle库、httplib库)
  • 电脑右键新建记事本不见了--设置恢复篇(无需操作注册表)
  • JavaScript内置对象 - Array数组(四)- 序列生成器