当前位置：首页 > article >正文

一天搞懂深度学习--李宏毅教程笔记

article 2025/9/14 8:57:39

目录

1. Introduction of Deep Learning
- 1.1. Neural Network - A Set of Function
- 1.2. Learning Target - Define the goodness of a function
- 1.3. Learn! - Pick the best function
- - Local minima
  - Backpropagation
2. Tips for Training Deep Neural Network
3. Variant of Neural Network
4. Next Wave

对一天搞懂深度学习–李宏毅教程分享内容做读书笔记，对深度学习中的神经网络进行介绍

1. Introduction of Deep Learning

深度常用于语音识别、手写文字识别、围棋、对话等多个领域。

深度学习的目标是构建一个模型，这个模型就是Network就是指神经网络，深度学习就是构建这个模型的过程。构建这个模型的过程只有三步：

在这里插入图片描述

1.1. Neural Network - A Set of Function

首先介绍这个模型（神经网络）是什么样子的。

先介绍神经元，Neuron也是一种函数，如下所示

在这里插入图片描述

其中激活函数Activation Function为Sigmoid：

在这里插入图片描述
由多个神经元相互全连接即为全连接的反向网络Fully Connect Feedforward Network，由多层Layers组成（不同模型Layers不同），如下图所示

在这里插入图片描述
记作 ${y_1,...y_M\}=f(\{x_1,...,x_N\})$

最终的输出使用softmax激活函数进行归一化，用于将每种输出转换为概率分布

在这里插入图片描述
最终得到

在这里插入图片描述

神经网络算法 - 一文搞懂 Softmax 函数

神经网络本质就是一种函数关系，不同的input vector可得到不同的output vector

在这里插入图片描述

1.2. Learning Target - Define the goodness of a function

知道模型的样子之后，深度学习的目标是找到神经网络中最合适的weights和bias。

怎么定义最合适？最合适的意思是，这个模型的输出是我们想要的理想输出。所以，使用已经标记好的训练数据喂给模型，模型的输出应该是我们的理想期望值。

例如，手写识别场景下，输入左图，期望输出应该是y2为最大值（表示模型的预期输出是2），使用softmax激活函数则期望输出为 $\hat{y}=[0,1,0,...,0]$

在这里插入图片描述
所以，模型应该适应我们的训练数据。即给定训练数据输入 $\{\hat{x}_1,...,\hat{x}_{256}\}$ ，模型的输出应该最接近我们的训练数据输出 $\{\hat{y}_1,...,\hat{y}_{10}\}$ 。

最接近的含义就是square error最小，这个square error就叫损失函数/代价函数，如下
$l_r=\sum_{i=1}^{10}{(y_i-\hat{y}_i)^2} \tag{1}$
而且满足
$\{\hat{y}_1,...\hat{y}_{10}\}=f(\{w_1,...,w_{N},b_1,...,b_{M}\},\{\hat{x}_1,...,\hat{x}_{256}\}) \tag{2}$

例如上图损失函数就为 $l=(y_1-0)^2+(y_2-1)^2+(y_3-0)^2+...+(y_{10}-0)^2$

那么整个模型的损失函数如下，其中R为训练样本个数

$L=\sum_{r=1}^{R}{l_r} \tag{3}$

所以，深度学习的终极目的是，寻找合适的 ${w_1,...,w_{N},b_1,...,b_{M}\}$ 满足式(1)(2)使式(3)最小，如下图。

在这里插入图片描述

1.3. Learn! - Pick the best function

梯度下降算法原理讲解——机器学习

那么如何找到最优的 $\theta=\{w_1,...,w_{N},b_1,...,b_{M}\}$ 使式(3)最小呢？方法就是著名的梯度下降法Gradient Descent，步骤如下。

Step 1. 通过随机化方法赋予 $\theta$ 一个初始值 $\theta=\theta_{i}$

Step 2. 将 $l$ 在 $\theta=\theta_{i}$ 处对 $\theta$ 的每一个参数求偏微分，得到的向量就是梯度

在这里插入图片描述
梯度的含义就是，在当前点函数上升最快的方向，所以梯度的反方向就是最快到达最小值的方向。

一个神经网络模型的参数非常多，如果直接用损失函数对每个参数作偏导，计算量巨大、梯度的维度也巨大。为了简便计算量，一般使用Backpropagation反向传播的方法计算梯度。

Step 3. 判断当前点的梯度是否足够小，即 $\nabla L|_{\theta=\theta_{i}}<\epsilon$ 。如果是则输出 $\theta=\theta_{i}$ 得到损失函数最小的模型参数。如果否则跳转Step 4.

Step 4. 给定学习率/步长 $\mu$ ，对各参数 $\theta$ 进行调整，即

$\theta_{i+1}=\theta_{i}-\mu·\nabla L|_{\theta=\theta_{i}}$

这个式子类似通过导数的方法去试最小值，当导数为正时， $\theta$ 降低、导数为负时， $\theta$ 增加，如下图所示。

在这里插入图片描述

Local minima

但是梯度下降法找到的一定是局部最小值，不保证找到的是全局最小值。如下图

在这里插入图片描述

所以可以设定不同的初始值执行梯度下降，在所有的极小值中找一个在 $L$ 的最小值作为模型的最优参数。

Backpropagation

反向传播，一种高效计算梯度的方法。

“反向传播算法”过程及公式推导（超直观好懂的Backpropagation）

2. Tips for Training Deep Neural Network

3. Variant of Neural Network

4. Next Wave

http://www.lryc.cn/news/2396914.html

相关文章：

Go语言常见接口设计技巧-《Go语言实战指南》

python打卡训练营打卡记录day43

Camera相机人脸识别系列专题分析之十一：人脸特征检测FFD算法之低功耗libvega_face.so人脸属性(年龄，性别，肤色，微笑，种族等)检测流程详解

解决：输入SSH后，仍无法通过网址登录以及紧接着的新问题Permission denied(publickey,password).

【QT控件】QWidget 常用核心属性介绍 -- 万字详解

uniapp-商城-77-shop（8.2-商品列表，地址信息添加，级联选择器picker）

HTTPS加密通信详解及在Spring Boot中的实现

如何让 Git 停止跟踪文件？停止后又如何恢复跟踪？

【第16届蓝桥杯 | 软件赛】CB组省赛第二场

SQL进阶之旅 Day 10：执行计划解读与优化

AR/MR实时光照阴影开发教程

Visual studio 中.sln/.vcxproj/.vcxproj.filters和.vcxproj.user文件的作用

【汽车电子入门】一文了解LIN总线

JVM学习(七)--JVM性能监控

关于 java：5. Java IO 与文件操作

【笔记】为 Python 项目安装图像处理与科学计算依赖（MINGW64 环境）

【笔记】MLA矩阵吸收分析

600+纯CSS加载动画一键获取指南

开源的JT1078转GB28181服务器

智能守护电网安全：探秘输电线路测温装置的科技力量

Java垃圾回收算法及GC触发条件

【Hot 100】118. 杨辉三角

useMemo useCallback 自定义hook

ffmpeg 的视频格式转换 c# win10

【irregular swap】An Examination of Fairness of AI Models for Deepfake Detection

【JAVA】注解+元注解+自定义注解（万字详解）

【Doris基础】Apache Doris中的Version概念解析：深入理解数据版本管理机制

【Linux 基础知识系列】第一篇-Linux 简介与历史

【图像处理基石】如何进行图像畸变校正？

软件开发项目管理工具选型及禅道开源版安装