当前位置: 首页 > news >正文

【LLM06---相对位置编码】

文章目录

  • 相对位置编码
    • 经典式
    • XLNET式
    • T5式
    • DeBERTa式


相对位置编码

上一节我们介绍了绝对位置编码,这一节我们来看相对位置编码,也就是用相对位置信息来表示,之前每一个token的位置式通过一个绝对的位置向量来表示的,现在我们在计算i与j的注意力分数的时候,采用i-j的函数来表示位置向量,这样的话,其外推性相对绝对位置来说更好,并且目前已经证明相对位置编码相对绝对位置编码效果更好。


经典式

我们首先考虑一般的带绝对位置编码的Attention:
在这里插入图片描述
现在位置向量就是和每一个token所处的位置有关系,现在我们在计算注意力分数的时候,将q和k带进去得到:
在这里插入图片描述
为了引入相对位置信息,Google把第一项位置去掉,第二项 p j W k p_jW_k pjWk改为二元位置向量 R i , j K R_{i,j}^K Ri,jK,变成
在这里插入图片描述
这样的话,注意力分数就会和相对位置有关系了,并且通常来说会进行截断,以适应不同的距离:
在这里插入图片描述
这样依赖,只需要有限个位置编码,就可以表达出任意长度的相对位置,这里的 p k p_k pk可以选择可训练的或者式三角函数式的。这里补充说明以下,就相当于对于未知i来说,如果j超过某个长度之后,二者的插值过大,就进行截断,也就是将超过阈值的很远的都一视同仁了。

XLNET式

首先对计算注意力分数的公式完全展开:
在这里插入图片描述
直接将 p j p_j pj替换为 R i − j R_{i-j} Rij,对于 p i p_i pi,直接替换为可训练的向量。
在这里插入图片描述
在这里插入图片描述

T5式

在这里插入图片描述
对于上面这个式子,我们可以将其理解为4项,分别是输入输入,输入位置,位置输入,位置位置。如果我们认为位置和输入是解耦的,那么中间两项就可以去掉,最后一项就可以看作一个偏置,变为:
在这里插入图片描述
不同于常规的位置编码的截断的方式,T5采用一种分桶的做法:
在这里插入图片描述
但是这个也会带来一个问题,就是外推性。

DeBERTa式

在这里插入图片描述
去掉最后只有位置编码的那一项,然后和普通的一样进行裁剪。

http://www.lryc.cn/news/573008.html

相关文章:

  • 下载链接记录
  • Linux 内核同步管理全解:原理 + 实战 + 考点
  • 第六章 进阶25 超级丹谈管理
  • servlet前后端交互
  • 在Django中把Base64字符串保存为ImageField
  • 掌握Python编程的核心能力,能快速读懂并上手项目开发。
  • HCIP-数据通信基础
  • 【网工】华为配置专题进阶篇④
  • 【Dify学习笔记】:RagFlow接入Dify基础教程
  • STM32:AS5600
  • Vuex(一) —— 集中式的状态管理仓库
  • 掌握Bash脚本编写:从服务启动脚本到语法精要
  • 防止应用调试分析IP被扫描加固实战教程
  • SAM2论文解读-既实现了视频的分割一切,又比图像的分割一切SAM更快更好
  • Springboot仿抖音app开发之Nacos 分布式服务与配置中心(进阶)
  • 文件夹美化工具推荐,打造个性化电脑界面
  • 音视频之H.264的可伸缩编码SVC
  • 【案例】性能优化在持续集成与持续交付中的应用
  • GO Gin Web框架面试题及参考答案
  • FPGA基础 -- Verilog 共享任务(task)和函数(function)
  • UE5错误 Linux离线状态下错误 请求失败libcurl错误:6无法解析主机名
  • 信任再造:跌倒检测算法如何让善意不再“自证”
  • Real-World Deep Local Motion Deblurring论文阅读
  • 结构体的嵌套问题
  • 【2025 年】软件体系结构考试试卷-期末考试
  • ABAP(2) 定义数据
  • 软件公司进军无人机领域的战略指南与生态合作全景-优雅草卓伊凡
  • Git 命令全景图:从 clone 到 merge 的完整流程解析
  • (双模第一期)从零打造蓝牙低功耗键盘——全流程详解与工具清单
  • window显示驱动开发—使用状态刷新回调函数