当前位置: 首页 > news >正文

DL笔记:旋转编码RoPE

1 背景

  • 由于计算资源限制,目前的LLM大多在较短的上下文长度中进行训练,在推理中,如果超出预训练的长度,模型的性能将会显著降低
    • ——>需要一个可提供外推性的位置编码
  • 最经典的绝对位置编码就是原始Transformer中的那个sinusoidal位置编码了:

 2 RoPE

2.1 motivation

  • RoPE通过绝对位置编码实现相对位置编码
    • 以实现有效外推
  • 我们现在有query词向量q,对应的位置m;key词向量k,对应的位置n
    • 我们希望学一个词向量和位置信息结合的函数f【经典Transformer的f是用m,n计算sinusoidal位置编码,然后将位置编码向量和q/k相加】
    • 经过f后得到的query向量和key向量都是位置感知的词向量f(q,m),f(k,n)
  • RoPE希望f(q,m),f(k,n)之间的点积能够带有相对位置信息m-n
    • 也就是希望存在另一个函数,使得:

2.2 RoPE的f函数

2.2.1 二维向量

  • 对于二维词向量,结论是:
    • 这里θ是一个常数
  • 此时

2.2.2 多维向量 

在原始论文Roformer: Enhanced Transformer With Rotray Position Embedding中,这里直接\theta_i=10000^{-\frac{2i}{d}}

所以有:

上面的矩阵乘法等价于如下的实现方式

http://www.lryc.cn/news/513798.html

相关文章:

  • C语言自定义类型与文件操作
  • 《计算机网络A》单选题-复习题库解析-3
  • VM虚拟机配置ubuntu网络
  • 【每日学点鸿蒙知识】Web高度适配、变量声明规范、动画取消、签名文件、包体积优化相关
  • uniapp使用ucharts组件
  • LabVIEW工程师的未来发展
  • java的bio、nio、aio 以及操作系统的select、poll、epoll
  • 2024 年发布的 Android AI 手机都有什么功能?
  • RLHF,LM模型
  • 【机器学习】工业 4.0 下机器学习如何驱动智能制造升级
  • REST与RPC的对比:从性能到扩展性的全面分析
  • MATLAB中将MAT文件转换为Excel文件
  • leetcode hot 100 跳跃游戏2
  • 【Cesium】八、Cesium 默认地图不显示,不加载默认Bing地图
  • 【新方法】通过清华镜像源加速 PyTorch GPU 2.5安装及 CUDA 版本选择指南
  • MySQL的sql操作有哪些
  • ArcGIS计算矢量要素集中每一个面的遥感影像平均值、最大值等统计指标
  • EasyExcel(环境搭建以及常用写入操作)
  • 探索Milvus数据库:新手入门指南(tencent云)
  • MySQL:一文弄懂时区time_zone
  • 基于python的天气可视化系统
  • STM32 高级 WIFi案例1:测试AT指令
  • SpringCloud微服务架构
  • WebSocket封装
  • 基于Flask后端框架的均值填充
  • SQL-Server链接服务器访问Oracle数据
  • Python中continue语句的使用
  • JavaScript的diff库详解(示例:vue项目实现两段字符串比对标黄功能)
  • 自动驾驶3D目标检测综述(六)
  • the request was rejected because no multipart boundary was found