当前位置: 首页 > news >正文

机器学习笔记:初始化0的问题

1 前言

假设我们有这样的两个模型:

  • 第一个是逻辑回归
    • a=sigmoid(w_1x_1+w_2x_2+b)
  • 第二个是神经网络
    • a_1=sigmoid(w_{11}x_1+w_{21}x_2+b_1)
    • a_2=sigmoid(w_{12}x_1+w_{22}x_2+b_1)
    • a_3=sigmoid(w_{13}1_1+w_{23}a_2+b_3)

他们的损失函数都是交叉熵

sigmoid函数的导数:

他们能不能用0初始化呢?

2 逻辑回归

a=sigmoid(w_1x_1+w_2x_2+b)

2.1 求偏导

2.1.1 结论

2.1.2 L对a的偏导

2.1.3 对w1,w2求偏导 

w2同理

2.1.4 对b偏导

2.2 参数更新与分析

w1,w2,b的梯度和w1,w2,b无关,所以初始化成0之后没有影响

3 神经网络

3.1 偏导

a3的部分和前面逻辑回归是一样的

 

3.1.1 a1部分推导

3.1.1.1 对a1的偏导

3.1.1.2 对w11,w21,b1的推导

3.2 初始化为0

3.2.1 w初始化为0,b初始化为0

3.2.2w初始化为0,b随机初始化

3.3 w随机初始化,b初始化为0

前向传播过程中,a1,a2均不为0,反向传播的过程中各参数均可以更新

更新幅度也不一样

参考内容:神经网络权重为什么不能初始化为0? (qq.com)

http://www.lryc.cn/news/396239.html

相关文章:

  • JavaWeb—js(3)
  • PLSQL Day4
  • git合并报错:git -c core.quotepath=false -c log.showSignature=false merge r
  • 云原生存储:使用MinIO与Spring整合
  • 等保测评新趋势:应对数字化转型中的安全挑战
  • 使用esptool工具备份ESP32的固件(从芯片中备份下来固件)
  • JS进阶-解析赋值
  • Java虚拟机面试题汇总
  • C++休眠的方法
  • 选择排序(C语言版)
  • 基于CentOS Stream 9平台搭建FRP内网穿透
  • Redis管理禁用命令
  • RFID智能锁控系统在物流安全运输中的应用与效益分析
  • WPF设置全局样式
  • 【福利】代码公开!咸鱼之王自动答题脚本
  • ChatGPT-4o大语言模型优化、本地私有化部署、从0-1搭建、智能体构建技术
  • 使用clion刷leetcode
  • 图解HTTP(5、与 HTTP 协作的 Web 服务器 6、HTTP 首部)
  • JS之防抖和节流
  • Open3D 点云PCA算法配准(粗配准)
  • Transformer中的编码器和解码器结构有什么不同?
  • 【深度学习】第5章——卷积神经网络(CNN)
  • fluwx插件实现微信支付
  • k8s核心操作_Deployment的扩缩容能力_Deployment自愈和故障转移能力---分布式云原生部署架构搭建022
  • P8306 【模板】字典树
  • 面试官:讲一下如何终止一个 Promise 继续执行
  • linux之常见的coredump原因都有哪些
  • 低资源低成本评估大型语言模型(LLMs)
  • 什么是RPC?有哪些RPC框架?
  • HTTP有哪些请求方式?