深度学习2(逻辑回归+损失函数+梯度下降)
目录
逻辑回归
逻辑回归损失函数
梯度下降算法
逻辑回归
在深度学习中,逻辑回归(Logistic Regression)是一种经典的二分类算法,同时也是神经网络的基础组件之一。
其作用是将输入特征的线性组合(x)通过一个非线性函数(Sigmoid)映射到 [0,1] 区间,表示属于某一类的概率。
回归函数公式
x 是输入特征向量
w 是权重
b 是偏置
sigmoid函数图像
逻辑回归损失函数
损失函数(lossfunction)用于衡量预测结果与真实值之间的误差。
逻辑回归的损失函数是交叉熵损失(Cross-Entropy Loss),它是衡量模型预测概率分布与真实标签分布之间差异的关键工具。
逻辑回归的损失函数公式
注:在机器学习和深度学习的损失函数中,对数函数(log)默认以自然对数(底数为 e) 为底,即数学中的 ln。
如果真实值y=1,则,此时想要损失越小,预测值需要约趋近于1
如果真实值y=0,,此时想要损失越小,预测值需要约趋近于0
以上是单个样本的损失值计算,而总体平均损失值(又称代价函数)公式为:
梯度下降算法
目的:找到使损失函数最小的值
函数的梯度(gradient)指出了函数的最陡增长方向。梯度的方向走,函数增长得就越快。那么按梯度的负方向走,函数值自然就降低得最快了。
模型的训练目标即是寻找合适的w与b以最小化代价函数值。假设w与b都是一维实数,那么可以得到如下的J关于w与b的图:
可以看到,成本函数J是一个凸函数,其含有局部最低。可以通过迭代调整参数,沿着损失函数的负梯度方向逐步更新,使损失函数值减小。
参数w和b的更新公式
注:其中a表示学习速率,即每次更新的w的步伐长度。当w大于最优解 w'时,导数大于 0,那么 w
就会向更小的方向更新。反之当 w 小于最优解 w' 时,导数小于 0,那么 w 就会向更大的方向更新。迭代直到收敛。