当前位置: 首页 > news >正文

NLP:Attention和self-attention的区别

核心思想是根据不同的上下文为不同的信息分配不同的注意力权重

效果

  • Attention:它允许模型在解码时聚焦于输入的特定部分,从而更好地捕获上下文信息。
  • Self-attention:它帮助模型捕获输入序列内部的关系,无论这些关系的距离有多远。

计算

  • Attention:权重是基于当前的输出(或解码器状态)和所有的输入(或编码器状态)来计算的。
  • Self-attention:权重是基于输入序列的每一个元素与其他所有元素的关系来计算的。

数学:

self-attention比attention约束条件多了两个:

1. Q=K=V(同源)   也就是说,查询、键、和值都来自于同一个地方,即输入序列和输出序列是相同的,即模型在生成每一个输出时都对自己的所有输入(包括自己)进行加权求和。

2. Q,K,V需要遵循attention的做法

http://www.lryc.cn/news/186952.html

相关文章:

  • Gap Year Plan
  • 厌烦了iPhone默认的热点名称?如何更改iPhone上的热点名称
  • 【数据库审计】2023年数据库审计厂家汇总
  • C#WPF StackPanel布局及Border边框应用实例
  • RabbitMQ-第四种交换机类型
  • Redis AOF重写原原理
  • es6.x和es7.x如何创建索引?
  • 《DevOps 精要:业务视角》- 读书笔记(三)
  • C语言——文件操作_学习笔记
  • cap分布式理论
  • asp.net core 如何统一json序列化格式
  • DALL·E 3 ChatGPT-4的梦幻联动
  • linux,write:xxx has messages disabled 与 Ubuntu多用户同时登录的问题 ubuntu 20.04
  • ffmpeg批量转换ape/wav为mp3 (linux, mac适用)
  • 自动生成JPA bean及repository生成简陋工具
  • vue3+vite+uniapp 封装一个省市区组件
  • OpenCV报错:AttributeError: module ‘cv2.cv2‘ has no attribute ‘SIFT_create‘
  • 通用监控视频web播放方案
  • C++基础知识3
  • 【配置vscode编写python代码并输出到外部控制台】
  • RK3588开发笔记-MIPI-CSI接口视频解码芯片XS9922B调试
  • DVWA -xss
  • C语言编程实现只有一个未知数的两个多项式合并的程序
  • C# .net创建一个MVC框架工程
  • Deep learning of free boundary and Stefan problems论文阅读复现
  • LeetCode 1277. 统计全为 1 的正方形子矩阵【动态规划】1613
  • 测试部门来了个00后卷王之王,老油条感叹真干不过,但是...
  • 360 G800行车记录仪,不使用降压线如何开机,8芯插头的定义。
  • vue2踩坑之项目:Swiper轮播图使用
  • python经典百题之分桃子