当前位置: 首页 > news >正文

《动手学深度学习 Pytorch版》 10.1 注意力提示

10.1.1 生物学中的注意力提示

“美国心理学之父” 威廉·詹姆斯提出的双组件(two-component)框架:

  • 非自主性提示:基于环境中物体的突出性和易见性

  • 自主性提示:受到了认知和意识的控制

10.1.2 查询、键和值

  • 注意力机制与全连接层或汇聚层区别开来的元素:是否包含自主性提示

  • 在注意力机制的背景下:

    • 自主性提示被称为查询(query)

    • 给定任何查询,注意力机制通过注意力汇聚(attention pooling) 将选择引导至感官输入(sensory inputs),例如中间特征表示。

    • 在注意力机制中,这些感官输入被称为值(value)。更通俗的解释,每个值都与一个**键(key)**配对,这可以想象为感官输入的非自主提示。可以通过设计注意力汇聚的方式,便于给定的查询(自主性提示)与键(非自主性提示)进行匹配,这将引导得出最匹配的值(感官输入)。

10.1.3 注意力的可视化

import torch
from d2l import torch as d2l

平均汇聚层可以被视为输入的加权平均值,注意力汇聚得到的是加权平均的总和值。下面的 show_heatmaps 函数,其输入 matrices 的形状是(要显示的行数,要显示的列数,查询的数目,键的数目)

#@save
def show_heatmaps(matrices, xlabel, ylabel, titles=None, figsize=(2.5, 2.5),cmap='Reds'):"""显示矩阵热图"""d2l.use_svg_display()num_rows, num_cols = matrices.shape[0], matrices.shape[1]fig, axes = d2l.plt.subplots(num_rows, num_cols, figsize=figsize,sharex=True, sharey=True, squeeze=False)for i, (row_axes, row_matrices) in enumerate(zip(axes, matrices)):for j, (ax, matrix) in enumerate(zip(row_axes, row_matrices)):pcm = ax.imshow(matrix.detach().numpy(), cmap=cmap)if i == num_rows - 1:ax.set_xlabel(xlabel)if j == 0:ax.set_ylabel(ylabel)if titles:ax.set_title(titles[j])fig.colorbar(pcm, ax=axes, shrink=0.6);
attention_weights = torch.eye(10).reshape((1, 1, 10, 10))  # 生成对角线全1,其余部分全0的二维数组
show_heatmaps(attention_weights, xlabel='Keys', ylabel='Queries')  # 仅当查询和键相同时,注意力权重为1,否则为0。


在这里插入图片描述

练习

(1)在机器翻译中通过解码序列词元时,其自主性提示可能是什么?非自主性提示和感官输入又是什么?

自主性提示可能是上下文信息之类的

非自主性提示可能是指在机器翻译过程中使用的其他信息,比如语言学习或人工翻译的知识。

感官输入可能是指输入方式、


(2)随机生成一个 10 × 10 10\times 10 10×10 矩阵并使用 softmax 运算来确保每行都是有效的概率分布,然后可视化输出注意力权重。

attention_weights = d2l.F.softmax(torch.rand((10, 10)), dim=1).reshape((1, 1, 10, 10))
show_heatmaps(attention_weights, xlabel='Keys', ylabel='Queries')


在这里插入图片描述

http://www.lryc.cn/news/204139.html

相关文章:

  • C# 写入文件比较
  • 医院设备利用(Use of Hospital Facilities, ACM/ICPC World Finals 1991, UVa212)rust解法
  • 解决github ping不通的问题(1024程序员节快乐!
  • QT基础 柱状图
  • 微机原理与接口技术-第七章输入输出接口
  • YoloV8改进策略:独家原创,LSKA(大可分离核注意力)改进YoloV8,比Transformer更有效,包括论文翻译和实验结果
  • 7天易语言从入门到实战(一)
  • redis缓存问题
  • mysql创建自定义函数报错
  • Docker 的数据管理与网络通信以及Docker镜像的创建
  • linux系统查看bash的history
  • 【T+】畅捷通T+增加会计科目提示执行超时已过期。
  • 0基础学习VR全景平台篇第111篇:全景图拼接和编辑 - PTGui Pro教程
  • Dynamics 365 使用ILMerge 合并CRM开发后的DLL
  • SpringBoot Web请求响应
  • Jenkins CLI二次开发工具类
  • 2. 计算WPL
  • 筹备三年,自动驾驶L3标准将至,智驾产业链的关键一跃
  • 【Python】Python使用Switch语句
  • 一年一度的1024程序员节
  • 第十七章 数据库操作
  • RTI-DDS代码分析使用介绍
  • ant-design-vue 3 a-table保留选中状态
  • golang 工程组件:grpc-gateway option自定义http规则
  • 亚马逊添加购物车和收藏有什么区别
  • JAVA-编程基础-11-03-java IO 字节流
  • python之Cp、Cpk、Pp、Ppk
  • 统信uos 1030 企业版 安装.net core环境
  • 2023/10/23学习记录
  • flask入门(四)前后端数据传输