当前位置: 首页 > news >正文

【AI学习】Mamba学习(十):HiPPO总结

前面用五篇文章陆续学了HiPPO框架。
这里再进行一下总结。

总结

HiPPO,高阶多项式投影,high-order polynomial projection operators

为了解决从序列数据中建模和学习的问题,尤其是长序列,十万甚至百万长度的序列,使用有界存储来学习整个累积历史的表示,需要一种在线更新的方式。
HiPPO给出了一个通用的框架解决这个问题。作者将序列记忆视为在线函数近似的技术问题,通过将序列投影到正交多项式(OP)的方法实现在线近似。论文提出了LegT、LagT、LegS三种时间度量方式,分别表达对整个序列历史的学习权重。
框架HiPPO(高阶多项式投影算子),提供了将到在给定时间度量的正交多项式空间上的算子。通过分析几种时间度量函数,以及不同的多项式基,作者都推导获得了闭式常微分方程或线性递归,允许在输入函数随时间变化时快速增量更新最优多项式近似值。而HiPPO框架推导的在线学习方程,恰好符合动力学的SSM方程,于是可以利用动力学方程的已有理论。

很多文章说,“Mamba的发展,是从SSM->HiPPO->S4->Mamba 演化过来”,这种说法是不准确的。HiPPO论文在问题设置与方法定义中并未提及SSM。正如苏神所说:“HiPPO 并没有一开始就假设系统必须是线性的,而是从正交基逼近的角度反过来推出其系数的动力学满足一个线性 ODE 系统,这样一来我们就可以确信,只要认可所做的假设,那么线性 ODE 系统的能力就是足够的,而不用去担心线性系统的能力限制了你的发挥。”

个人总结:针对序列数据的建模和学习,HiPPO框架是一种序列记忆的统一框架,通过投影到正交多项式进行序列学习,同时用时间度量函数表达对序列历史的学习权重,在给定时间度量下的正交多项式投影的推导,最终推导出线性常微分方程的闭式解,实现在线近似学习。
在这里插入图片描述
将SSM方程的矩阵A从随机矩阵A修改为上述HiPPO矩阵,可以有效提升SSM在实践中的性能。

补充

《Mamba学习(七):HiPPO通用框架介绍》给出了傅里叶基的推导案例。
傅里叶级数在通信中经常使用,作为一种时频变换手段,主要用于信号的频域处理,但是另一方面,傅里叶级数展开也是一种有效的压缩方式。
因为,在时域上连续的信号,在频域必然是一个有限带宽的信号。从物理角度来说,时域上连续,意味着频率变化慢,频域必然是有限的。既然是有限带宽,就可以通过只关注变化的频率上的数值,实现信号压缩。
而HiPPO的做法,是针对正交多项式投影的系数,取N个系数,这个N是一个足够大的整数。我想,或许更好的做法,可能是只取变化的系数,自适应的取系数,而不是简单的取N个系数。

http://www.lryc.cn/news/465545.html

相关文章:

  • AI编程新纪元:Cursor与V0引领的技术变革
  • python——类
  • 走廊泼水节——求维持最小生成树的完全图的最小边权和
  • LC:动态规划-买卖股票
  • FLINK SQL 任务参数
  • HCIP——以太网交换安全(四)DHCP Snooping
  • k8s worker 节点关机 sts 管理的 pod 无法迁移
  • 排序04 视频播放建模
  • 【常见大模型API调用】第三篇:清华智谱--智谱AI
  • LayerSkip – Meta推出加速大型语言模型推理过程的技术
  • 环境变量与本地变量(Linux)
  • 【完-网络安全】Windows防火墙及出入站规则
  • Vue学习记录之十七 css中样式穿透及新特征介绍
  • Nature 正刊丨海洋涡旋中常见的地下热浪和寒潮
  • 代码随想录算法训练营第六十二天| prim算法,kruskal算法
  • Newstar_week1_week2_wp
  • 今天我们研究一段代码(异或位运算)
  • pycharm中使用ctrl+鼠标滚轮改变字体大小
  • 【算法-动态规划】打家劫舍专题
  • 关于技术管理者的一些思考
  • Alpha-CLIP: A CLIP Model Focusing on Wherever You Want CVPR 2024
  • Golang | Leetcode Golang题解之第495题提莫攻击
  • 04 go语言(golang) - 变量和赋值过程
  • 语言/图像/视频模型一网打尽!BigModel大模型开放平台助力开发者轻松打造AI新应用!
  • Go语言Linux环境搭建以编写第一个Go程序
  • 使用 Go 构建一个最小的 API 应用
  • MySQL 日常维护指南:常见任务、频率及问题解决
  • oracle ORA-24920:列大小对于客户机过大
  • 使用 Docker compose 部署 Nacos(达梦数据库)
  • 人工智能 | 阿里通义千问大模型