当前位置: 首页 > news >正文

卷积池化尺寸计算公式

卷积层[Conv]:

卷积CNN是我们最常使用的,但是有时候需要观察他的输出前后的差异,这里描述下计算方式,具体如下:

图片大小:WxHxD  W:宽 H:高 D:通道(RGB) 例:320x320x3

卷积核:NxNx3   卷积核大小 后面的3是和图片的通道对应,如果图片是灰度的那么就是1

卷积核个数:C 

步长:S   每次一卷积的时候跨越的步长

填充:P  外网填充多少行和列,一般是图片保留特征或者是维持图片大小

公式计算:

输出数据的高度:OH = (H - N + 2P) / S + 1
输出数据的宽度:OW = (W - N + 2P) / S + 1
输出数据的深度:OD = 卷积核的个数C

*如果输出数据的尺寸不是整数,会对输出数据进行四舍五入或者向下取整等操作。

例子:

输入数据为:3x320x320   

我们这里是BGR的图片,一般cv默认处理就是BGR图片,通道是3,宽和高都是320,也可以理解为三张320x320的图片,方便神经网络的处理

卷积参数:卷积个数:16,卷积核:3x4x4 (由于通道是3,卷积核宽和高都是4,当然卷积核默认都是奇数,这里测试写了个偶数4,选择偶数会导致特征偏移不建议)、步长:3  填充:2

根据公式计算:

输出图片宽:((320 - 4 + 2x2)/ 3 )+ 1  = 107.6666 ≈ 107(选择向下取整,也可以四舍五入,看算法)

输出图片高:((320 - 4 + 2x2)/ 3 )+ 1  = 107.6666 ≈ 107(选择向下取整,也可以四舍五入,看算法)

通道数:16(直接为卷积核个数)

输出的数据为:16x107x107

池化层[Pool]:

池化也是提取特征,可以达到快速缩小特征,比如最大池化、平均池化

里面包含的也是 滤波器  步长

图片大小:WxHxD  W:宽 H:高 D:通道(RGB) 例:320x320x3

滤波器:NxN   滤波器的宽高

公式:(和卷积差不多没有填充)

输出数据的高度:OH = (H - N ) / S + 1
输出数据的宽度:OW = (W - N ) / S + 1

例子

图片输入:3x320x320

池化层:3x3  步长 2

根据公式计算:

输出图片宽:((320 - 3)/ 2 )+ 1  = 159.5≈ 159(选择向下取整,也可以四舍五入,看算法)

输出图片高:((320 - 3)/ 2 )+ 1  = 159.5≈ 159(选择向下取整,也可以四舍五入,看算法)

通道数:3

输出数据为:3x159x159

膨胀卷积【Conv】

卷积的一种,在卷积核中插入空洞(dilation)来扩大感受野,从而捕捉更广泛的上下文信息。膨胀卷积通常用于处理具有较大空间范围的输入数据,(个人理解,其实就是特征图太紧凑了,比如鼻子嘴巴都黏到一起了,通过添加一些空白值把鼻子和嘴巴隔开些,更好的观察分析,如果离得太近可能在某次池化或者卷积就把特征卷没了),用途如图像分割、语义分割,包含膨胀卷积、扩张卷积、空洞卷积。

根常规的卷积比,增加了一个膨胀因子R,具体如下

图片大小:WxHxD  W:宽 H:高 D:通道(RGB) 例:320x320x3

卷积核:NxNx3   卷积核大小 后面的3是和图片的通道对应,如果图片是灰度的那么就是1

卷积核个数:C 

膨胀因子:R  (增加视野的参数)

步长:S   每次一卷积的时候跨越的步长

填充:P  外网填充多少行和列,一般是图片保留特征或者是维持图片大小

首先需要根据膨胀卷积计算出感受野,其实就是相当正常卷积的卷积核宽高(N)

感受野假设为D,感受野大小 = (卷积核大小 - 1) * 膨胀率 + 1

感受野D的计算公式:D = (N-1)*(R-1) +N

输出数据的高度:OH = (H - D + 2P) / S + 1
输出数据的宽度:OW = (W - D + 2P) / S + 1
输出数据的深度:OD = 卷积核的个数C

例子

输入数据为:3x320x320   

我们这里是BGR的图片,一般cv默认处理就是BGR图片,通道是3,宽和高都是320,也可以理解为三张320x320的图片,方便神经网络的处理

卷积参数:卷积个数:16,卷积核:3x4x4 (由于通道是3,卷积核宽和高都是4,当然卷积核默认都是奇数,这里测试写了个偶数4,选择偶数会导致特征偏移不建议)、膨胀因子为2(1为默认卷积)、步长:3  填充:2

根据公式计算:

感受野计算:D= (4-1)*(2-1)+4 =7

输出图片宽:((320 - 7 + 2x2)/ 3 )+ 1  = 106.6666 ≈ 106(选择向下取整,也可以四舍五入,看算法)

输出图片高:((320 - 7 + 2x2)/ 3 )+ 1  = 106.6666 ≈ 106(选择向下取整,也可以四舍五入,看算法)

通道数:16(直接为卷积核个数)

输出的数据为:16x106x106

http://www.lryc.cn/news/365231.html

相关文章:

  • 前端框架原理自测题:根据 JSX / Vue 模板写出 render 函数 / VNode
  • RabbitMQ启动报错:Error during startup: {error, {schema_integrity_check_failed,
  • 操作系统入门系列-MIT6.828(操作系统工程)学习笔记(三)---- xv6初探与实验一(Lab: Xv6 and Unix utilities)
  • Java核心: 为图片生成水印
  • Spark MLlib 机器学习详解
  • MySQL报ERROR 2002 (HY000)解决
  • 【校招】【社招】字节跳动UG营销算法工程师招聘
  • Go实战 | 使用Go-Fiber采用分层架构搭建一个简单的Web服务
  • Web自动化测试框架+PO模式分层实战(超细整理)
  • 光猫、路由器的路由模式、桥接模式、拨号上网
  • iOS--工厂设计模式
  • [Python]用Qt6和Pillow实现截图小工具
  • Podman和Docker的区别
  • Go微服务: 分布式Cap定理和Base理论
  • Mysql学习(四)——SQL通用语法之DQL
  • 【ARFoundation自学05】人脸追踪(AR Face manager)实现
  • Vulnhub-DC-2
  • VNC server ubuntu20 配置
  • c++--priority_queue和仿函数
  • Harmony os Next——关系型数据库relationalStore.RdbStore的使用
  • 快手直播限流怎么办?
  • 【MySQL】数据库入门基础
  • cannot allocate memory in static TLS block
  • Leetcode 654:最大二叉树
  • uniapp小程序src引用服务器图片时全局变量与图片路径拼接
  • 比较PWM调光和无极调光
  • 【高校科研前沿】新疆生地所陈亚宁研究员团队在GeoSus发文:在1.5°C和2°C全球升温情景下,中亚地区暴露于极端降水的人口增加
  • 使用 OKhttp3 实现 智普AI ChatGLM HTTP 调用(SSE、异步、同步)
  • 智慧校园教学模式的崛起:优化学习体验
  • ffmpeg视频编码原理和实战-(5)对编码过程进行封装并解决丢帧问题