当前位置: 首页 > news >正文

目标检测-Two Stage-Fast RCNN

文章目录

  • 前言
  • 一、Fast RCNN的网络结构和流程
  • 二、Fast RCNN的创新点
    • 1.特征提取+分类+回归合一
    • 2.更快的训练策略
  • 总结


前言

前文目标检测-Two Stage-SPP Net中提到SPP Net的主要缺点是:

  • 分开训练多个模型困难且复杂
  • 尽管比RCNN快10-100倍,但仍然很慢
  • SPP Net无法更新空间金字塔池化层以下的权重,根本原因是,当每个训练样本来自不同影像时,通过SPP层的反向传播效率很低

Fast RCNN针对上述缺点做了改进


提示:以下是本篇文章正文内容,下面内容可供参考

一、Fast RCNN的网络结构和流程

  1. 使用Selective Search提取2,000个感兴趣区(RoIs)
  2. 预训练CNN模型(VGG)+ 微调(fine-tuning) / 从头开始训练模型
  3. 使用CNN网络从整个图像中提取特征图(feature maps)
  4. 使用线性模型将RoI在原图的位置映射到卷积层特征图,以获取每个RoI的特征图(feature map)
  5. 通过ROI池化层(ROI Pooling Layer)将每个RoI的feature map转化为固定大小

ps:ROI Pooling Layer实质就是单层(7×7) SPP Layer

  1. 将经过ROI池化层得到的候选窗口的表示输入全连接网络
  2. 将全连接网络输出直接输入神经网络分类器(Linear+softmax)和神经网络回归器(Linear),得到类别和目标框
    示例:pandas 是基于NumPy 的一种工具,该工具是为了解决数据分析任务而创建的。
    在这里插入图片描述

二、Fast RCNN的创新点

1.特征提取+分类+回归合一

使用softmax替代SVM分类,同时利用多任务损失函数(multi-task loss)将边框回归(Bounding Box Regression)也加入到了网络中,这样整个的训练过程除去Region Proposal提取阶段外,其余部分是端到端的,使得训练变得简便快捷

Fast R-CNN的multi-task loss为分类交叉熵损失和回归L1损失的加权和

2.更快的训练策略

在Fast RCNN网络训练中,随机梯度下降(SGD)的小批量是被分层采样的,首先采样 N N N个图像,然后从每个图像采样 R R R个 RoI。关键的是,来自同一图像的RoI在向前和向后传播中共享计算和内存。减小 N N N,就减少了小批量的计算。例如,当 N = 2 N = 2 N=2 R = 128 R = 128 R=128时,得到的训练方案比从128幅不同的图采样一个RoI(即R-CNN和SPPnet的策略)快64倍。

ps:SPP-net是先把所有图像用SS计算的RoIs存起来,再从中每次随机选128个RoIs作为一个batch进行训练,这128个RoIs最坏的情况来自128张不同的图像,那么要对128张图像都送入网络计算其特征,同时内存要把128张图像的各层feature maps都记录下来(反向求导时要用),所以时间和空间上开销都比较大;而Fast R-CNN虽然也是SS计算RoIs,但每次只选2张图像的RoIs(一张图像上约2000个RoIs),再从中选128个作为一个batch,那么训练时只要计算和存储2张图像的Feature maps,所以时间和内存开销更小


总结

尽管相比于RCNN和SPP Net更快更简便,但Fast R-CNN仍是通过手工方法(Selective Search)寻找的候选框,非常耗时。

http://www.lryc.cn/news/267764.html

相关文章:

  • vol----随记!!!
  • vue中样式动态绑定写法
  • C语言—每日选择题—Day63
  • Mac_通过chmod处理文件权限
  • 实战指南:使用 Spring Cloud Stream 集成 Kafka 构建高效消息驱动微服务
  • 线性代数基础【3】向量
  • Spring Boot + MinIO 实现文件切片极速上传技术
  • uniapp中如何使用image图片
  • docker-compose 安装gitlab
  • 到底是前端验证还是后端验证
  • AlignBench:量身打造的中文大语言模型对齐评测
  • asp.net core 教程
  • 概率论1:下象棋问题(3.5)
  • LLM调研笔记
  • K8S----RBAC
  • HBase 超大表迁移、备份、还原、同步演练手册:全量快照 + 实时同步(Snapshot + Replication)不停机迁移方案
  • 统计直线上2个点的分布占比
  • uniapp创建/运行/发布项目
  • 洛谷 P2367 语文成绩 刷题笔记
  • Opencv_CUDA实现推理图像前处理与后处理
  • Android.bp 和 Android.mk 的对应关系
  • 力扣-收集足够苹果的最小花园周长[思维+组合数]
  • 【C语言】自定义类型:结构体深入解析(三)结构体实现位段最终篇
  • 基于Hexo+GitHub Pages 的个人博客搭建
  • 7. 结构型模式 - 代理模式
  • 挑战Python100题(6)
  • gin实现登录逻辑,包含cookie,session
  • 云原生Kubernetes:K8S集群版本升级(v1.22.14 - v1.23.14)
  • C++面向对象(OOP)编程-位运算详解
  • linux运行服务提示报错/usr/bin/java: 没有那个文件或目录