当前位置: 首页 > news >正文

如何理解卷积,和自注意力机制的局限与优势(个人理解)

如何理解卷积

卷积,特征提取器,每个通道对应机器认为的一个特征,每次卷积需要考虑所有特征的线性组合,也就是整合特征

问题:卷积不能全局建模

诚然,卷积感受野有限(3*3),不像注意力机制关注全局信息;
但是,如果我不断的卷积,一个人的脑袋,和一个人的身体,终究会在一个窗口内相遇,此时人这个语义不就被学出来了么?
过深的网络,会遇到梯度消失,即使加入Relu 函数,效率下降,梯度消失是必然出现。
resnet 加入残差,堆叠很深的网络,但是在论文中也提到,会学习到重复特征,整体网络荣誉,浪费资源,且训练资源消耗大。

而且,卷积是固定的,无法分辨出输入中可能有重要信息,错误信息,一视同仁卷积下去,没有选择关注能力/

那么,注意力机制呢?

如何理解注意力机制

注意力机制,全局建模,生成 Q, K,V
将KV 抽象的理解为信息库,像图书馆,而Q 理解为要查询的书,也就是抽象的理解为特征,语义。 那Q 去和K 做点积计算 相关性,其实是一个匹配 ,强化,增强的过程,匹配到的,增强过的,可以理解为是相关的,比如左边图片的人与右边图片的影子这两个语义是有关的。

注意力机制容易过拟合

参数量巨大,自由,容易记住训练集的特征,导致过拟合
在这里插入图片描述

http://www.lryc.cn/news/607570.html

相关文章:

  • 倒计时!2025国自然放榜时间锁定
  • 使用Nginx部署前端项目
  • 【Linux】磁盘存储+文件系统简介
  • 开箱即用的Next.js SSR企业级开发模板
  • Java Ai 数组:day(09)
  • 【Nginx反向代理】通过Nginx反向代理将多个后端server统一到同一个端口上的方法
  • 算法题——数组
  • Implement recovery based on PITR using dump file and binlog
  • Deep Height Decoupling for Precise Vision-based 3D Occupancy Prediction
  • 【JAVA面试】基础篇
  • 代码随想录算法训练营三十三天|动态规划part06
  • GenieWizard: Multimodal App Feature Discovery with LargeLanguage Models
  • 直播平台中的美白滤镜实现:美颜SDK的核心架构与性能优化指南
  • Java 22 新特性解析与代码示例
  • Corrosion2靶机攻略
  • three.js实现随机山脉波纹效果
  • 【LeetCode刷题指南】--单值二叉树,相同的树
  • RustFS:高性能文件存储与部署解决方案(MinIO替代方案)
  • session和cookie作用详解
  • Solana:解决Anchor Build编译程序报错 no method named `source_file` found for struct
  • 设计模式1:创建型模式
  • 后台管理系统权限管理:前端实现详解
  • PDFsam免费开源!PDF分割合并工具
  • unity学习——视觉小说开发(一)
  • AI应用UX设计:让技术更懂用户
  • Android Jetpack 系列(五)Room 本地数据库实战详解
  • 第一个大语言模型的微调
  • Transformer架构全解析:搭建AI的“神经网络大厦“
  • Spring之【循环引用】
  • 插件升级:Chat/Builder 合并,支持自定义 Agent、MCP、Rules