如何理解卷积,和自注意力机制的局限与优势(个人理解)
如何理解卷积
卷积,特征提取器,每个通道对应机器认为的一个特征,每次卷积需要考虑所有特征的线性组合,也就是整合特征
问题:卷积不能全局建模
诚然,卷积感受野有限(3*3),不像注意力机制关注全局信息;
但是,如果我不断的卷积,一个人的脑袋,和一个人的身体,终究会在一个窗口内相遇,此时人这个语义不就被学出来了么?
过深的网络,会遇到梯度消失,即使加入Relu 函数,效率下降,梯度消失是必然出现。
resnet 加入残差,堆叠很深的网络,但是在论文中也提到,会学习到重复特征,整体网络荣誉,浪费资源,且训练资源消耗大。
而且,卷积是固定的,无法分辨出输入中可能有重要信息,错误信息,一视同仁卷积下去,没有选择关注能力/
那么,注意力机制呢?
如何理解注意力机制
注意力机制,全局建模,生成 Q, K,V
将KV 抽象的理解为信息库,像图书馆,而Q 理解为要查询的书,也就是抽象的理解为特征,语义。 那Q 去和K 做点积计算 相关性,其实是一个匹配 ,强化,增强的过程,匹配到的,增强过的,可以理解为是相关的,比如左边图片的人与右边图片的影子这两个语义是有关的。
注意力机制容易过拟合
参数量巨大,自由,容易记住训练集的特征,导致过拟合