当前位置: 首页 > news >正文

第六十二周周报

学习目标:

一、实验

二、论文

学习时间:

2023.11.11-2023.11.17

学习产出:

实验

1、CB模块实验效果出来了,加上去效果不太行,后续实验考虑是否将CB模块换到其他地方
2、CiFAR100实验已完成,效果比ViTGAN好
3、Diffusion + 其他模块的实验还在跑,目前Diffusion+相对位置编码的效果比以前三个模块加一起的效果都好,考虑再多跑几次看是否是偶然结果,下周也会在这个代码上加上傅里叶看是否效果还和模型以前一样。

论文

FourierFormer: Transformer Meets Generalized Fourier Integral Theorem

NIPS2022年的论文,提出FourierFormer,将点积核替代为广义傅里叶积分核。

1、介绍

点积自注意力遵循混合高斯分布这一假设所使用的未归一化高斯核,但这一假设在实践中是否有效并无保证。本文将Trasformer注意力解释为一个非参数核回归,提出FourierFormer,将点积核替代为广义傅里叶积分核。理论上证明了提出的傅里叶积分核可以有效逼近任何键和查询分布。与使用点积注意力的传统Transformer相比,FourierFormer能够取得更好的准确性,并减少注意头之间的冗余。

2、方法

点积自注意力可能无法捕获查询向量(Q)中特征与关键向量(V)之间的相关性,传统Transformer的方法是额外使用协方差矩阵建立QV之间的联系。本文提出使用广义傅里叶积分建立自注意力与非参数核回归之间的对应关系,利用广义傅里叶积分定理,自动捕获向量的相关性

3、贡献

(1)通过求解一个非参数核回归问题推导出自注意力的公式,从而为研究和进一步发展自注意力提供了一种非参数回归解释。
(2)提出了非参数回归问题的广义傅里叶积分估计量,并为这些估计量提供了理论保证。
(3)提出FourierFormer,使用广义傅立叶积分估计来更有效地捕获查询中特征和关键向量之间的相关性

4、结果

FourierFormer在WikiText语言建模和ImageNet图像分类中比具有点积自注意力的Transformer baseline获得了明显更好的精度。在实验中证明了FourierFormer有助于减少注意头之间的冗余。
在这里插入图片描述

在这里插入图片描述
在这里插入图片描述

http://www.lryc.cn/news/233714.html

相关文章:

  • 【机器学习】 特征工程:特征预处理,归一化、标准化、处理缺失值
  • 【深度学习实验】网络优化与正则化(七):超参数优化方法——网格搜索、随机搜索、贝叶斯优化、动态资源分配、神经架构搜索
  • 简单漂亮的首页
  • SSM项目初始化流程与操作概念解释-SpringBoot简化版
  • Angular 路由无缝导航的实现与应用(六)
  • quickapp_快应用_tabBar
  • PCL_点云分割_基于法线微分分割
  • 计算机毕业论文内容参考|基于深度学习的交通标识智能识别系统的设计与维护
  • SELinux零知识学习十六、SELinux策略语言之类型强制(1)
  • 轻量封装WebGPU渲染系统示例<34>-数据驱动之Json构建场景
  • 全局异常拦截和Spring Security认证异常的拦截的顺序
  • Hive Lateral View explode列为空时导致数据异常丢失
  • 音频类型转换工具-可执行文件exe/dmg制作
  • 【Proteus仿真】【51单片机】公交车报站系统
  • C++--STL总结
  • Python----图像的手绘效果
  • Android13集成paho.mqtt.android启动异常
  • STM框架之按键扫描新思路
  • Linux服务器挂载另一台服务器的文件夹(mount)
  • 剑指offer --- 用两个栈实现队列的先进先出特性
  • 流媒体协议
  • ClickHouse的分片和副本
  • C语言编程陷阱(五)
  • chardet检测文件编码,使用生成器逐行读取文件
  • html所有标签和DOCTYPE的总结
  • 2023年11月15号期中测验判断题(Java)
  • 基于 selenium 实现网站图片采集
  • vue3相关内容
  • AWTK实现汽车仪表Cluster/DashBoard嵌入式GUI开发(七):FreeRTOS移植
  • 《洛谷深入浅出进阶篇》P1995 程序自动分析——并查集,离散化