当前位置: 首页 > news >正文

位置编码与长度外推

位置编码

位置编码从前到后包括:绝对位置编码、余弦位置编码、旋转位置编码、ALiBi相对位置编码。

1 绝对位置编码(Absolute Positional Encoding)

应用的模型:BERT、GPT等Transformer基础模型广泛使用绝对位置编码来处理序列数据。

算法思想:绝对位置编码通过为序列中的每个位置分配一个唯一的向量来工作。这些向量被加到对应位置的词嵌入上,从而使模型能够根据单词的位置信息进行学习。在BERT中,位置编码是可学习的参数,而在原始的Transformer和GPT中,则采用了预定义的、基于固定公式生成的绝对位置编码。

优点

  • 简单直接,易于实现。
  • 通过为每个位置分配唯一的编码,模型可以准确地获得每个单词的绝对位置信息,有助于处理位置敏感的任务。

缺点

  • 固定的位置编码可能限制了模型处理长序列的能力,因为它需要在训练前预先定义最大序列长度。
  • 可能不如相对位置编码灵活,后者能更好地处理长距离依赖关系。

2 余弦位置编码(Sinusoidal Positional Encoding)

应用的模型:原始的Transformer模型在其编码器和解码器的输入中采用了余弦位置编码。

算法思想:余弦位置编码使用一组正弦和余弦函数来生成每个位置的编码,这些函数的波长遵循几何级数。这意味着每个维度的位置编码对应于正弦和余弦函数的不同频率,从而允许模型捕捉序列中的相对位置信息。公式大致为:对于位置pos和维度i,位置编码pos的第i维的值为sin(pos / 10000^(2i/d_model))cos(pos / 10000^(2i/d_model)),其中

http://www.lryc.cn/news/324513.html

相关文章:

  • Linux信号补充——信号发送和保存
  • Vue3 中应该使用 Ref 还是 Reactive?
  • 红外相机和RGB相机标定:实现两种模态数据融合
  • 前端项目,个人笔记(五)【图片懒加载 + 路由配置 + 面包屑 + 路由行为修改】
  • 【MySQL】2.MySQL数据库的基本操作
  • 常见技术难点及方案
  • c#关键字 static
  • redis 如何保证数据同步(数据变化时)
  • Ubuntu18.04桌面版设置静态IP地址
  • Aztec的客户端证明
  • 面试官:小伙子知道synchronized的优化过程吗?我:嘚吧嘚吧嘚,面试官:出去!
  • 100天精通风控建模(原理+Python实现)——第23天:风控建模中的贝叶斯优化是什么?怎么实现?
  • Http 超文本传输协议基本概念学习摘录
  • 模拟-算法
  • 深入了解鸿鹄工程项目管理系统源码:功能清单与项目模块的深度解析
  • Unbuntu20.04 git push和pull相关问题
  • hive SQL 移位、运算符、REGEXP正则等常用函数
  • 33-Java服务定位器模式 (Service Locator Pattern)
  • 前端小卡片:vue3路由是什么,有什么作用,该如何配置?
  • Jackson 2.x 系列【2】生成器 JsonGenerator
  • 说说webpack中常见的Loader?解决了什么问题?
  • Django 铺垫
  • 浅谈C++的继承与多态(静态绑定、动态绑定和虚函数等)
  • 【无人机综合考试题】
  • JS精度计算的几种解决方法,1、转换成整数计算后再转换成小数,2、toFixed,3、math.js,4、bignumber.js,5、big.js
  • v77.递归
  • Spring Cloud微服务功能及其组件详细讲解
  • (三维重建学习)已有位姿放入colmap和3D Gaussian Splatting训练
  • 4635: 【搜索】【广度优先】回家
  • Uibot6.0 (RPA财务机器人师资培训第1天 )RPA+AI、RPA基础语法