当前位置: 首页 > news >正文

【李宏毅机器学习】注意力机制

输出

我们会遇到不同的任务,针对输出的不一样,我们对任务进行划分

给多少输出多少

在这里插入图片描述

给一堆向量,输出一个label,比如说情感分析

在这里插入图片描述

还有一种任务是由机器决定的要输出多少个label,seq2seq的任务就是这种,翻译也是

在这里插入图片描述

Sequence Labeling

如果要考虑时序信息,每次可以选取前后固定长度的信息输入到fc层,但是运算量很大需要的参数也很多

新的方法能考虑整个input sequence

在这里插入图片描述

fc专注处理某一个位置的信息,self-attention来考虑整个sequence的信息

模型细节

在这里插入图片描述

每个b都是考虑整个sequence来产生的

那么是如何产生的?

我们需要找到一些相关的向量来帮助决定 a 1 a^1 a1,用 α \alpha α来表示相关的重要性

在这里插入图片描述

那么怎么决定 α \alpha α呢,有两种方式

在这里插入图片描述

a 1 a^1 a1分别与其他的向量分别进行计算相关性

在这里插入图片描述

一般而言,也会跟自己计算相关性

在这里插入图片描述

然后接一个softmax

在这里插入图片描述

根据attention的分数,也就是计算出来的每一个 α \alpha α值来抽取重要的信息

在这里插入图片描述

转换为矩阵运算形式:

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

多头注意力

多头注意力是自注意力的一个进阶的版本

多头注意力的关键在于Q是有不同的多个进行询问的,这样带来的好处与卷积也比较类似,我们采用不同的Q来负责不同种类的相关性

计算方式上,与自注意力机制比较类似,每个计算过程中 只关注对应的(比如计算1的时候只把1拿出来)

在这里插入图片描述

在这里插入图片描述

位置编码

有时位置的距离也比较重要,我们需要存储位置的信息

在这里插入图片描述

For Image

横着来看做一个vector,众多vector作为输入,输入进model

在这里插入图片描述

http://www.lryc.cn/news/133792.html

相关文章:

  • Nginx使用keepalived配置VIP
  • C语言编写图形界面
  • K8s学习笔记3
  • ceph集群的扩容缩容
  • gremlin安装使用 详细步骤
  • Java语言怎么编写一个程序计算出租车的运输费用:出租车起步15公里以内20块钱,需要支付调头费用
  • 十、flume的安装
  • 互联网广告及产品变现认知分析整理
  • item_search_img-按图搜索淘宝商品(拍立淘)
  • OWASP Top 10(2021)漏洞学习(最新)
  • mysql 、sql server 游标 cursor
  • dockers搭建基本服务
  • 微信小程序纯前端从阿里云OSS下载json数据-完整版
  • 【微服务实战】01-工程结构概览
  • 论文导读|European Journal of Operational Research近期文章精选:旅行商问题专题
  • playwright迭代元素
  • 65 | 增长模型案例
  • Django视图-HttpRequest请求对象和HttpResponse响应对象
  • 原来Lambda表达式是这样写的
  • smartsofthelp 5.0 最专业的数据库优化工具,数据库配置优化,数据库高并发优化,SQL 语句优化...
  • 智影 R100:首款三维Mesh建模的SLAM激光扫描仪
  • Next.js - Loading UI and Streaming
  • 快速解决Ubuntu 中 wine 程序 中文显示为方块/显示错误/无法显示中文(2023)
  • 漏洞指北-VulFocus靶场专栏-中级02
  • 【开源三方库】bignumber.js:一个大数数学库
  • 【C++】iota函数 + sort函数实现基于一个数组的多数组对应下标绑定排序
  • C# window forms 进度条实现
  • ListNode相关
  • docker的资源控制及docker数据管理
  • 通过请求头传数据向后端发请求