当前位置: 首页 > news >正文

Position Embedding总结和Pytorch实现

文章目录

  • 出现背景
  • PE
    • 位置编码公式
    • 思路
    • code

出现背景

自注意力机制处理数据,并不是采用类似RNN或者LSTM那种递归的结构,这使得模型虽然能够同时查看输入序列中的所有元素(即并行运算),但是也导致了没办法获取当前word在序列种的位置信息,使模型对顺序信息捕捉很差。

PE

位置编码公式

在这里插入图片描述

思路

采用sin和cos函数对word的每一维上进行唯一编码,这样每个word都得到了自己的位置编码信息,并且由于sin和cos都是连续函数,所以针对pos相近的word,他们的位置编码信息也是比较相近的,这样序列的顺序信息就能够获取到了。

TODO遗留问题:sin和cos都是周期函数,会存在位置编码信息重叠吗?

code

import torch
import torch.nn as nn
import mathclass PositionalEncoding(nn.Module):def __init__(self, d_model, max_len=5000):"""初始化位置编码模块。:param d_model: 嵌入的维度:param max_len: 最大序列长度"""super(PositionalEncoding, self).__init__()# 创建一个足够长的位置编码矩阵 [max_len, d_model]pe = torch.zeros(max_len, d_model)# 0 到 maxLen - 1 的 张量# unsqueeze(1): [maxLen,] => [maxLen, 1],即[0 到 maxLen] => [[0 到 maxLen]]position = torch.arange(0, max_len, dtype=torch.float).unsqueeze(1)# 除数张量, [,maxLen]div_term = torch.exp(torch.arange(0, d_model, 2).float() * (-math.log(10000.0) / d_model))# 奇数和偶数下标的分别处理pe[:, 0::2] = torch.sin(position * div_term) # 因为position是[maxLen, 1],所以会有广播机制pe[:, 1::2] = torch.cos(position * div_term)# 增加一个维度,将位置编码设置为不可训练pe = pe.unsqueeze(0).detach()# 注册缓冲区,这样pe不会在训练过程中被视为模型的可训练参数self.register_buffer('pe', pe)def forward(self, x):"""将位置编码添加到输入嵌入中。:param x: 输入嵌入,形状为 (Batch size, Sequence length, d_model)"""# x的形状是 [Batch size, Sequence length, d_model]# 从缓冲区中取出相应长度的pe,并添加到x上x = x + self.pe[:, :x.size(1)]return x
http://www.lryc.cn/news/461703.html

相关文章:

  • 【AIF-C01认证】亚马逊云科技生成式 AI 认证正式上线啦
  • C++ 素数的筛选法与穷举法
  • Spring Boot异步任务、任务调度与异步请求线程池的使用及原理
  • Java爬虫之使用Selenium WebDriver 爬取数据
  • MyBatis 中updateByPrimaryKey和updateByPrimaryKeySelective区别
  • JavaScript下载文件(简单模式、跨域问题、文件压缩)
  • Django 定义使用模型,并添加数据
  • 联名物料常泄漏?一端叠满“安全buff”
  • Flutter UI组件库(JUI)
  • 国外电商系统开发-运维系统远程文件
  • 4. Node.js Path模块
  • 重构长方法之分解条件表达式
  • 蚁群算法养老服务人员智能调度系统
  • java使用 IDEA自动补全功能 AI 插件
  • 【ShuQiHere】 AI与自我意识:能否创造真正的自觉机器人?
  • 【Linux 从基础到进阶】CPU性能调优与监控
  • Centos基线自动化检查脚本
  • OpenCV答题卡识别
  • 通用数据库对象设计
  • Java基础12-特殊文件和日志技术
  • 2.4 STM32启动过程
  • rm: cannot remove: Device or resource busy 解决方案
  • 2024年的5款AI写作工具,你用过几个?
  • 泛癌热门靶点TROP2及研究工具试剂
  • 2848. 与车相交的点
  • 第1节 入门
  • 四数之和(medium)08
  • TypeScript中 interface接口 type关键字 enum枚举类型
  • vue3.2实现AES加密解密,秘钥通过API获取,并混淆秘钥,后端thinkphp
  • 简述微服务高可用之Sentinel、Seate