当前位置: 首页 > news >正文

多头注意力机制

1、什么是多头注意力机制

从多头注意力的结构图中,貌似这个所谓的多个头就是指多组线性变换,但是并不是,只使用了一组线性变换层,即三个变换张量对 Q、K、V 分别进行线性变换,这些变化不会改变原有张量的尺寸,因此每个变换矩阵都是方阵,得到输出结果后,多头的作用才开始显现,每一个头开始从词义层面分割输出的张量,也就是每一个头都先获得一组 Q、K、V进行注意力机制的计算,但是句子中的每个词的表示只获得一部分,也就是只分割了最后一维的词嵌入向量,这就是所谓的多头,将每个头获取的输入送到注意力机制中就形成了多头注意力机制。

2、多头注意力机制结构图

3、多头注意力机制的作用

这种结构的设计能让每个注意力机制去优化每个词汇的不同特征部分,从而均衡同一种注意力机制可能产生的偏差,让词义拥有来自多元的表达,实验表名可以从而提升模型效果

http://www.lryc.cn/news/185720.html

相关文章:

  • Qt + FFmpeg 搭建 Windows 开发环境
  • [网鼎杯 2020 白虎组]PicDown python反弹shell proc/self目录的信息
  • SDL2绘制ffmpeg解析的mp4文件
  • 决策树C4.5算法的技术深度剖析、实战解读
  • LLMs Python解释器程序辅助语言模型(PAL)Program-aided language models (PAL)
  • 【12】c++设计模式——>单例模式练习(任务队列)
  • Python之函数、模块、包库
  • SQL创建与删除索引
  • 网络协议--链路层
  • HDLbits: Count clock
  • 【1day】用友移动管理系统任意文件上传漏洞学习
  • 【c++】向webrtc学习容器操作
  • SpringBoot+Vue3外卖项目构思
  • 【AI视野·今日NLP 自然语言处理论文速览 第四十七期】Wed, 4 Oct 2023
  • c++的lambda表达式
  • 电梯安全监测丨S271W无线水浸传感器用于电梯机房/电梯基坑水浸监测
  • Java异常:基本概念、分类和处理
  • 小谈设计模式(19)—备忘录模式
  • 《数据库系统概论》王珊版课后习题
  • MariaDB 修改用户远程登录
  • Elasticsearch使用mapping映射定义以及基本的数据类型
  • 【unity】制作一个角色的初始状态(左右跳二段跳)【2D横板动作游戏】
  • 不死马的利用与克制(基于条件竞争)及变种不死马
  • 计算机竞赛 车道线检测(自动驾驶 机器视觉)
  • Java代理简介
  • rust元组
  • HTTPS工作过程,国家为什么让http为什么要换成https,Tomcat在MAC M1电脑如何安装,Tomcat的详细介绍
  • 第十课 贪心
  • 5分钟理解什么是卷积的特征提取
  • Legion Y9000X IRH8 2023款(82Y3)原装出厂OEM预装Windows11系统