当前位置: 首页 > news >正文

神经网络 模型表示2

神经网络 模型表示2

使用向量化的方法会使得计算更为简便。以上面的神经网络为例,试着计算第二层的值:

在这里插入图片描述

我们令 z ( 2 ) = θ ( 1 ) x {{z}^{\left( 2 \right)}}={{\theta }^{\left( 1 \right)}}x z(2)=θ(1)x,则 a ( 2 ) = g ( z ( 2 ) ) {{a}^{\left( 2 \right)}}=g({{z}^{\left( 2 \right)}}) a(2)=g(z(2)) ,计算后添加 a 0 ( 2 ) = 1 a_{0}^{\left( 2 \right)}=1 a0(2)=1。 计算输出的值为:

在这里插入图片描述

我们令 z ( 3 ) = θ ( 2 ) a ( 2 ) {{z}^{\left( 3 \right)}}={{\theta }^{\left( 2 \right)}}{{a}^{\left( 2 \right)}} z(3)=θ(2)a(2),则 h θ ( x ) = a ( 3 ) = g ( z ( 3 ) ) h_\theta(x)={{a}^{\left( 3 \right)}}=g({{z}^{\left( 3 \right)}}) hθ(x)=a(3)=g(z(3))
这只是针对训练集中一个训练实例所进行的计算。如果我们要对整个训练集进行计算,我们需要将训练集特征矩阵进行转置,使得同一个实例的特征都在同一列里。即:
${{z}^{\left( 2 \right)}}={{\Theta }^{\left( 1 \right)}}\times {{X}^{T}} $

a ( 2 ) = g ( z ( 2 ) ) {{a}^{\left( 2 \right)}}=g({{z}^{\left( 2 \right)}}) a(2)=g(z(2))

为了更好了了解Neuron Networks的工作原理,我们先把左半部分遮住:

在这里插入图片描述

右半部分其实就是以 a 0 , a 1 , a 2 , a 3 a_0, a_1, a_2, a_3 a0,a1,a2,a3, 按照Logistic Regression的方式输出 h θ ( x ) h_\theta(x) hθ(x)

其实神经网络就像是logistic regression,只不过我们把logistic regression中的输入向量 [ x 1 ∼ x 3 ] \left[ x_1\sim {x_3} \right] [x1x3] 变成了中间层的 [ a 1 ( 2 ) ∼ a 3 ( 2 ) ] \left[ a_1^{(2)}\sim a_3^{(2)} \right] [a1(2)a3(2)], 即: h θ ( x ) = g ( Θ 0 ( 2 ) a 0 ( 2 ) + Θ 1 ( 2 ) a 1 ( 2 ) + Θ 2 ( 2 ) a 2 ( 2 ) + Θ 3 ( 2 ) a 3 ( 2 ) ) h_\theta(x)=g\left( \Theta_0^{\left( 2 \right)}a_0^{\left( 2 \right)}+\Theta_1^{\left( 2 \right)}a_1^{\left( 2 \right)}+\Theta_{2}^{\left( 2 \right)}a_{2}^{\left( 2 \right)}+\Theta_{3}^{\left( 2 \right)}a_{3}^{\left( 2 \right)} \right) hθ(x)=g(Θ0(2)a0(2)+Θ1(2)a1(2)+Θ2(2)a2(2)+Θ3(2)a3(2))
我们可以把 a 0 , a 1 , a 2 , a 3 a_0, a_1, a_2, a_3 a0,a1,a2,a3看成更为高级的特征值,也就是 x 0 , x 1 , x 2 , x 3 x_0, x_1, x_2, x_3 x0,x1,x2,x3的进化体,并且它们是由 x x x θ \theta θ决定的,因为是梯度下降的,所以 a a a是变化的,并且变得越来越厉害,所以这些更高级的特征值远比仅仅将 x x x次方厉害,也能更好的预测新数据。
这就是神经网络相比于逻辑回归和线性回归的优势。

http://www.lryc.cn/news/251714.html

相关文章:

  • ubuntu使用SSH服务远程登录另一台设备
  • 读书笔记:《Effective Modern C++(C++14)》
  • PCL 点云加权均值收缩
  • 计算机毕业设计 基于协同推荐的白酒销售管理系统的设计与实现 Java实战项目 附源码+文档+视频讲解
  • React-hook-form-mui(五):包含内嵌表单元素的表单
  • 【内网安全】搭建网络拓扑,CS内网横向移动实验
  • 1、输入一行字符,分别统计出其中的英文字母、空格、数字和其他字符的个数。
  • 戴尔科技推出全新96核Precision 7875塔式工作站
  • 论文阅读——DINOv
  • JOSEF电流继电器 DL-33 整定范围0.5-2A 柜内安装板前接线
  • RCE绕过
  • Qt应用开发--国产工业开发板全志T113-i的部署教程
  • css 常用动画效果
  • 【读书笔记】微习惯
  • Oracle SQL优化
  • C++实现ATM取款机
  • 【数电笔记】11-最小项(逻辑函数的表示方法及其转换)
  • Gradio库的安装和使用教程
  • 【BLE基础知识】--Slave latency设置流程及空中包解析
  • 数据结构之堆排序以及Top-k问题详细解析
  • ESP32-Web-Server 实战编程-通过网页控制设备多个 GPIO
  • 说一说MySQL中的锁机制
  • C++笔试训练day_1
  • 详解Spring对Mybatis等持久化框架的整合
  • [Electron] 将应用打包成供Ubuntu、Debian平台下安装的deb包
  • 7.24 SpringBoot项目实战【审核评论】
  • Java实现动态加载的逻辑
  • 数据库的设计规范
  • 正则表达式从放弃到入门(2):grep命令详解
  • 用Java写一个王者荣耀游戏