03.自动特征提取(深度学习)核心逻辑:通过多层非线性变换,让模型自动学习从原始数据到高层特征的映射。为什么多层非线性变换可以达到这样的效果?
在深度学习中,多层非线性变换能够实现自动特征提取的核心原因在于其对数据表征的分层学习能力和非线性映射的表达优势。以下从理论基础、数学机制、实际效果三个层面展开解析:
一、非线性变换的本质:突破线性模型的表达局限
-
线性模型的局限性
线性变换(如矩阵乘法)只能学习输入特征的线性组合(如 y=Wx+b),仅能处理线性可分问题。例如,线性模型无法识别图像中的曲线边缘,也无法捕捉文本中词语间的复杂语义关联。 -
非线性激活函数的引入
深度学习通过在每层线性变换后添加非线性激活函数(如 ReLU、Sigmoid、Tanh 等),将线性输出转化为非线性映射。例如:- ReLU 函数:f(x)=max(0,x),通过 “截断负值” 引入非线性,使模型能学习更复杂的函数关系。
- 非线性激活的本质是让模型具备 “分段线性拟合” 能力,多个非线性单元组合可逼近任意连续函数(万能近似定理的理论支撑)。
二、多层结构的优势:从原始数据到高层特征的分层抽象
-
特征的层级化学习过程
深度学习的多层网络如同 “特征金字塔”,每一层从前一层的输出中提取更抽象的特征:- 底层网络:学习原始数据的基础特征(如图像的边缘、颜色块,语音的频率成分);
- 中层网