当前位置: 首页 > news >正文

【Datawhale组队学习202506】YOLO-Master task04 YOLO典型网络模块

系列文章目录


文章目录

  • 系列文章目录
  • 前言
  • 4.1 DFL 模块
    • 4.1.1 DFL的核心思想
  • 4.2 SPP 模块
    • 4.2.1 核心思想
  • 4.3 SPPF 模块
    • 4.3.1 核心思想
  • 总结


前言

  • Datawhale是一个专注于AI与数据科学的开源组织,汇集了众多领域院校和知名企业的优秀学习者,聚合了一群有开源精神和探索精神的团队成员
  • YOLO-Master
  • 本章学习资料

4.1 DFL 模块

Distribution Focal Loss 是YOLO系列在边界框回归中引入的创新模块,源自《Generalized focal loss: learning qualified and distributed bounding boxes for dense object detection》论文的核心思想。

4.1.1 DFL的核心思想

DFL的核心思想是将边界框坐标预测 转化为概率分布估计问题 ,而非传统的直接回归坐标值。

  • 具体而言:
    • 传统方法 :直接回归边界框的坐标(如左上角和右下角的坐标),使用 L 1 / L 2 L1/L2 L1/L2损失。
    • DFL方法
      1. 将每个坐标值建模为一个离散的概率分布 ,假设坐标可能的取值范围被划分为 N N N个区间(如 N = 16 N=16 N=16),模型预测每个区间成为真实坐标值的概率;
      2. 再计算最终坐标值通过加权求和得到:坐标 = Σ(概率 * 区间位置);

4.2 SPP 模块

Spatial Pyramid Poling 模块是YOLO系列中用于多尺度特征融合的核心组件,灵感来源于2014年何凯明团队提出的空间金字塔池化思想论文《Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition》。

  • 它通过并行多尺度池化操作,显著提升模型对不同尺寸目标的感知能力。

4.2.1 核心思想

多尺度特征融合,通过 多尺度池化操作 (Multi-level Pooling)提取不同感受野的特征,并将这些特征进行融合,从而增强模型对目标尺度变化的鲁棒性。

  • 所有池化操作采用stride=1padding=kernel_size//2,而非动态调整,确保输出特征图尺寸与输入一致,便于后续拼接。
  • 通过 1 × 1 1\times1 1×1 卷积压缩通道数(降维),减少计算量,再在池化后扩展通道(升维),平衡效率与性能。

4.3 SPPF 模块

Spatial Pyramid Pooling-Fast,是 YOLOv5 针对传统 SPP 模块的轻量化改进版本,通过串联重复池化实现多尺度特征融合。

4.3.1 核心思想

用更少的计算量,实现等效的多尺度感受野。

  • 串联池化替代并行池化:上面 SPP 使用多个不同尺寸的池化核(如 5 × 5 5\times5 5×5 、 、 9 × 9 9\times9 9×9 、 、 13 × 13 13\times13 13×13并行处理特征图,而 SPPF 通过连续三次串联应用 5 × 5 5 \times 5 5×5 池化,利用叠加效应等效覆盖更大的感受野

总结

  • 拆解介绍一些YOLO中的典型网络模块。
http://www.lryc.cn/news/574847.html

相关文章:

  • Python训练营-Day40-训练和测试的规范写法
  • 【Python-Day 29】万物皆对象:详解 Python 类的定义、实例化与 `__init__` 方法
  • 【Linux网络与网络编程】15.DNS与ICMP协议
  • 性能测试-jmeter实战4
  • 集成学习基础:Bagging 原理与应用
  • PyEcharts教程(009):PyEcharts绘制水球图
  • 60天python训练营打卡day41
  • Linux系统---Nginx配置nginx状态统计
  • 鸿蒙 Stack 组件深度解析:层叠布局的核心应用与实战技巧
  • AI时代工具:AIGC导航——AI工具集合
  • 接口自动化测试之pytest 运行方式及前置后置封装
  • 爬取小红书相关数据导入到excel
  • 项目需求评审报告参考模板
  • 图的拓扑排序管理 Go 服务启动时的组件初始化顺序
  • 飞往大厂梦之算法提升-day08
  • sqlserver怎样动态执行存储过程,并且返回报错
  • Java实现简易即时通讯系统
  • day41 打卡
  • 基于元学习的回归预测模型如何设计?
  • MySQL:深入总结锁机制
  • linux操作系统的软件架构分析
  • 战略调整频繁,如何快速重构项目组合
  • 原生策略与功耗方案参考
  • Android 开发问题:Wrong argument type for formatting argument ‘#2‘ in info_message
  • 马克思主义基本原理期末复习下
  • DVWA Brute Force漏洞深度分析与利用指南
  • iwebsec靶场sqli注入(2)
  • Vue3+Spring boot 前后端防抖增强方案
  • 学习记录:DAY33
  • 2025年渗透测试面试题总结-2025年HW(护网面试) 09(题目+回答)