当前位置: 首页 > news >正文

Padding Mask;Sequence Mask;为什么如果没有适当的掩码机制,解码器在生成某个位置的输出时,可能会“看到”并错误地利用该位置之后的信息

目录

掩码Mask

 Padding Mask

 Sequence Mask

为什么需要Sequence Mask?

Sequence Mask是如何工作的?

具体实现

为什么如果没有适当的掩码机制,解码器在生成某个位置的输出时,可能会“看到”并错误地利用该位置之后的信息

自回归性质

一、定义

二、性质

三、应用限制


掩码Mask

Mask 表示掩码,它对某些值进行掩盖,使其在参数更新时不产生效果。Transformer 模型里面涉及两种 mask分别是 Padding Mask 和 Sequence Mask

  • Padding Mask 在所有的 scaled dot-product attention 里面都需要用到

  • Sequence Mask 只有在解码器 Decoder 的 Self-Attention 里面用到

 Padding Mask

什么是 Padding mask 呢?因为每个批次输入序列的长度是不一样的,所以我们要对输入序列进行对齐

具体来说:就是在较短的序列后面填充 0(但是如果输入的序列太长,则是截断,把多余的直接舍弃)。因为这些填充的位置,其实是没有什么意义的,所以我们的 Attention 机制不应该把注意力放在这些位置上,所以我们需要进行一些处理。

具体的做法:把这些位置的值加上一个非常大的负数(负无穷),这样的话,经过Softmax

http://www.lryc.cn/news/423133.html

相关文章:

  • 派森学长带你学python—字典
  • 如何设置 Visual Studio Code 的滚轮缩放功能
  • Python模拟退火算法
  • C语言典型例题36
  • 实现高亮的全文分页检索
  • 【buildroot与yocto区别】
  • 原创音乐小程序的设计
  • 使用 MongoDB 构建 AI:Flagler Health 的 AI 旅程如何彻底改变患者护理
  • 在 Linux 系统中下载 Python 并配置环境
  • 优化if-else的几种方式
  • 关于k8s集群Pod启动过程
  • Linux Vim教程(十五):使用Vimscript进行脚本编写
  • 解决element-ui回车键绑定按钮功能后却刷新浏览器的问题
  • MySQL基础练习题37-查找结果的质量和占比
  • 酒店行业如何利用XML进行营销短信
  • 【模型】TFLiteModel
  • 【Kubernetes】Service 概念与实战
  • RTSP|RTMP流如何指定坐标位置和分辨率获取RGB数据实时渲染和算法分析
  • 基于ssm+vue+uniapp的英语学习交流平台小程序
  • 如何判断一个TimerTask是否已经完成
  • Android常用面试题
  • JSON与Jsoncpp库:数据交换的灵活选择
  • salesforce rich text 字段支持html中内嵌JavaScript吗
  • Ubuntu24.04、22.04或20.04安装Golang方法教程
  • 学习记录第二十二天
  • 红酒与艺术展览:品味艺术与风味的双重盛宴
  • 1Panel配置
  • 场外期权是如何定价的?场外期权定价的基本原理是什么?
  • vue中数据持久化
  • 小白零基础学数学建模系列-Day3-线性回归模型的构建与评估