当前位置: 首页 > news >正文

Transformer位置表示(Position Encoding)

为什么需要位置表示

对比CNN、RNN和Self-Attention:

CNN处理相邻窗口的内容;RNN天然是序列操作,考虑了位置先后关系;Self-Attention的计算时是无序的,所以需要位置表示来知道Token之间的位置信息。

绝对位置表示

典型如:Bert/Roberta/GPT2的位置表示,将位置如 0~512 像词一样做embedding,需要训练position向量矩阵

不同模型训练出来的位置表示之间的相似性,对角线是1

优势:简单

劣势:无法处理超出长度的句子,必须截断

相对位置表示

位置n的旋转位置编码(RoPE),本质上就是数字n的β进制编码!- 苏剑林

为什么需要进制编码?我们先看进制编码的格式:

我们再回到RoPE的公式:pos是位置,i是表示向量的维度

令 \beta=10000^2,那么RoPE就是下面这种表示,也就是完整的进制编码表示:

我们再看下位置表示的可视化,发现当表示向量的维度上升,曲线更加稠密;

为什么要用周期进制表示:

  1. 进制在表示相对位置时和绝对位置表示是一样的效果,如「我们知道10的相邻数据是9和11」

  2. 周期进制表示方式,更加的稠密;就像10/16进制一样,进制越高,表示信息越大

  3. 周期进制可以做推理:假设我们已经学习过0~200的表示,那么对于200~299,直接就知道他们的位置和关系;甚至于200~999也是可以直接知道含义的

如何扩展位置表示

直接外推

如果我们学习过position 在0~200之间的表示,那么对于200~299的长度,可以直接扩展,甚至 200~999的位置表示,也可以直接外推。但是如果是1000~以上的范围,那么效果就不好了,因为千位的维度没有训练过。

优点是:在预留的维度上,是可以直接外推,不需要训练的;

缺点:超出范围的,性能下降极大

线性内插

如果我们学习过position 在0~200之间的表示,我们需要表示更长,一种是我们每隔0.5就做一个表示,这样表示能力扩展到 0~400了,这样还是保持学习范围之内,但是问题是表示更加拥挤,当处理范围进一步增大时,相邻差异则更小,这样位置表示的作用就减弱了。

优点是:原则上可以无限内插下去

缺点:差异小了,PE的效果降低

Neural Tangent Kernel—NTK-aware

内插 + 外插叠加:在低位的时候,基本和原来一致,不影响原始表示,这个就是外插;在高位的时候,往里面内插,虽然信息降低,但是也可以表示

http://www.lryc.cn/news/303440.html

相关文章:

  • LPDDR6与LPDDR5 State Diagram技术探讨
  • AliLinux的使用Docker初始化服务(详细)
  • docker环境常用容器安装
  • 【论文阅读|基于 YOLO 的红外小目标检测的逆向范例】
  • 【presto权威指南】常用操作
  • Python程序员面试准备:八股文题目与解答思路
  • 如何系统地自学Python?
  • mysql 2-21
  • 【C#】List泛型数据集如何循环移动,最后一位移动到第一位,以此类推
  • LeetCode23.合并K个升序链表
  • (01)Hive的相关概念——架构、数据存储、读写文件机制
  • 二维码扫码登录原理,其实比你想的要简单的多
  • Java 实现 Awaitable(多线程并行等待,类似 AutoEventReset 的作用)
  • AI之Sora:Sora(文本指令生成视频的里程碑模型)的简介(能力/安全性/技术细节)、使用方法、案例应用之详细攻略
  • IListManger feeds流
  • 视频推拉流EasyDSS视频直播点播平台授权出现激活码无效并报错400是什么原因?
  • 设计模式三:工厂模式
  • 2024.2.15 模拟实现 RabbitMQ —— 消息持久化
  • 【技巧】金融企业在搭建服务器时,选择私有云方案还是全栈专属云?
  • 【大厂AI课学习笔记】【2.2机器学习开发任务实例】(10)模型评测
  • 【C++游戏开发-03】贪吃蛇
  • 如何理解CSS的边框宽度?
  • java 写入写出 zip
  • 问题解决:‘telnet‘ 不是内部或外部命令,也不是可运行的程序 或批处理文件
  • 从基础到高级:Linux用户与用户组权限设置详解
  • 【感知机】感知机(perceptron)学习算法知识点汇总
  • 蓝桥杯:C++二分算法
  • Leetcode刷题笔记题解(C++):83. 删除排序链表中的重复元素
  • @ 代码随想录算法训练营第8周(C语言)|Day56(动态规划)
  • C# OpenCvSharp DNN Image Retouching