当前位置: 首页 > news >正文

【arXiv2025】计算机视觉|FGA:即插即用!让你的模型精准预测人群密度!

图片

论文地址:https://arxiv.org/pdf/2407.06110 代码地址:https://github.com/AIRLABkhu/FGA3


关注UP CV缝合怪,分享最计算机视觉新即插即用模块,并提供配套的论文资料与代码。 CV缝合怪的个人空间-CV缝合怪个人主页-哔哩哔哩视频

图片

摘要

本研究提出了傅里叶引导注意力(FGA),一种用于人群计数估计的新型注意力机制,旨在解决现有基于卷积的注意力网络中全尺度全局模式捕获效率低下的问题。FGA 通过利用快速傅里叶变换 (FFT) 以及针对全局特征的空间注意力和针对半全局和局部特征的通道注意力卷积来有效地捕获多尺度信息,包括全尺度全局模式。FGA 的架构涉及双路径方法:(1)通过 FFT 处理全尺度全局特征的路径,从而有效提取频域信息;(2)使用传统卷积和通道注意力处理剩余特征图以获取半全局和局部特征的路径。这种双路径架构使 FGA 能够无缝集成频率和空间信息,增强其捕获各种人群模式的能力。本研究将 FGA 应用于两个流行的人群计数工作 CSRNetCANNet 的最后一层,以评估该模块在 ShanghaiTech-A、ShanghaiTech-B、UCF-CC-50 和 JHU++ crowd 等基准数据集上的性能。实验表明,基于均方误差 (MSE)平均绝对误差 (MAE) 指标,所有数据集都有显着改进,与最新的方法相比表现出相当的性能。此外,本研究使用 Grad-CAM 热图进行定性分析来说明其可解释性,以展示 FGA 在捕获人群模式方面的有效性。

图片

引言

本研究关注人群计数估计领域,旨在解决现有基于卷积注意力网络的全局模式捕获效率低下的问题。人群计数估计在公共安全、人群管理、城市规划和医疗保健等领域具有重要意义。由于大范围的前景-背景失衡、遮挡和透视变形等问题,在大型人群场景中进行人群计数变得极具挑战性。目前,基于密度图的人群计数方法被广泛接受,该方法通过预测人群密度图,并对密度图中的像素值求和来估计人群数量。

深度学习的引入显著推进了人群计数领域的发展,涌现出许多基于CNN的密度图回归方法。然而,这些方法仍然受限于卷积核的感受野,导致无法有效地捕获模型中的全局或长程模式。在人群计数中,全局感受野允许网络捕获更广泛上下文的信息,确保其考虑人群的整体布局,并考虑人群密度分布的变化。许多基于注意力的研究,例如MAN、DMCNet、JANet和DA2Net,由于其能够通过注意力网络理解大规模依赖关系而受到欢迎。例如,BBA-net提出了一种基于注意力的网络,旨在捕获空间位置的细粒度细节;RFSNet则引入了一种用于视频时空人群计数的逐块循环自注意力网络。

尽管这些基于CNN的方法表现出色,但它们仅利用能够在局部邻域内处理信息的卷积,忽略了大规模像素间的上下文;因此,单独使用卷积层对于理解全尺度全局模式来说效率低下。为解决这个问题,本研究提出了一种名为傅里叶引导注意力(FGA)模块的新型神经网络架构,其灵感来自快速傅里叶卷积(FFC)。该模块专为远程上下文感知人群计数而设计,将FFC、空间注意力和通道注意力无缝地结合到一个单元中。FFC在空间域和频域中运行,使FGA能够同时处理局部和全局感受野的信息。同时,不同的注意力机制专注于放大来自输入序列不同部分的细粒度特征,以捕获相关信息。所提出的框架可以集成到现有的人群计数方法中,以关注全尺度全局特征

论文创新点

✨ 傅里叶引导注意力 (FGA) 用于人群计数估计 ✨

本研究提出了一种名为 傅里叶引导注意力(FGA) 的新型注意力机制,用于人群计数估计,旨在解决现有基于卷积的注意力网络在全尺度全局模式捕获方面的低效性。

1. 🚀 FGA 的核心思想 🚀

  • 利用快速傅里叶变换 (FFT) 以及空间注意力来处理全局特征,并使用带有通道注意力机制的卷积来处理半全局和局部特征,从而有效地捕获多尺度信息,包括全尺度全局模式。

2. 🚄 FGA 的双路径架构 🚄

本研究的FGA架构采用双路径方法:

  • (1) 全局特征路径: 通过 FFT 处理全尺度全局特征,允许在频域中高效提取信息。

  • (2) 半全局和局部特征路径: 使用传统卷积和通道注意力处理剩余特征图以获取半全局和局部特征。

这种双路径架构使 FGA 能够无缝集成频率和空间信息,增强其捕获各种人群模式的能力。

3. 📊 实验结果与数据集 📊

  • 将 FGA 应用于两个流行的人群计数工作 CSRNetCANNet 的最后一层。

  • ShanghaiTech-A、ShanghaiTech-B、UCF-CC-50 和 JHU++ crowd 等基准数据集上评估性能。

  • 基于均方误差 (MSE) 和平均绝对误差 (MAE) 指标,所有数据集都有显著改进,其性能与最新的方法相当。

4. 🔍 可解释性与消融实验 🔍

  • 利用 Grad-CAM 热力图 进行定性分析,以说明 FGA 在捕获人群模式方面的有效性,从而增强了模型的可解释性。

  • 消融实验验证了FGA模块中每个组成部分(FFT、空间注意力和通道注意力)的有效性以及它们对整体性能的贡献。

5. 📈 不同人群密度下的性能分析 📈

  • 分析了在不同人群密度下的计数样本,结果表明,该模型在低密度、中等密度和高密度人群中均表现出色。

  • 观察到在高密度人群中性能略有下降,这需要进一步分析傅里叶引导注意力在高人群密度下略微下降的原因,并将其作为该领域未来的研究方向。

论文实验

图片

http://www.lryc.cn/news/624525.html

相关文章:

  • 微信小程序通过uni.chooseLocation打开地图选择位置,相关设置及可能出现的问题
  • 【深度学习】pytorch深度学习框架的环境配置
  • CPTS---Active 复现
  • 如何部署 PHPWind 8.5 UTF8 论坛?从下载到安装全流程(附安装包下载)
  • 20250818在荣品的PRO-RK3566开发板跑Buildroot的时候使用在线秒表https://tool.hiofd.com/stopwatch/
  • Python循环语句 从入门到精通
  • 【运维进阶】LNMP + WordPress 自动化部署实验
  • 第十六届蓝桥杯青少组C++省赛[2025.8.10]第二部分编程题(5、环形取硬币游戏)
  • Baumer高防护相机如何通过YoloV8深度学习模型实现网球运动员和网球速度的检测分析(C#代码UI界面版)
  • Opsqueue:为重负载而生的轻量级批处理队列,已开源!
  • Bellman-Ford与spfa算法简介
  • ARM架构下的cache transient allocation hint以及SMMUv2的TRANSIENTCFG配置详解
  • 大数据时代时序数据库选型指南:深度解析与 Apache IoTDB 实践
  • C++对象的内存布局
  • 一般情况下,python函数都会返回对象,但有时只调用一个函数,这是在修改这个信息
  • 【笔记】扩散模型(一一):Stable Diffusion XL 理论与实现
  • STRIDE威胁模型
  • 图像分类精度评价的方法——误差矩阵、总体精度、用户精度、生产者精度、Kappa 系数
  • 论文阅读 2025-8-9 [DiC, DropKey]
  • promise async await总结
  • linux中的hostpath卷与nfs卷以及静态持久卷的区别
  • 大数据计算引擎(二)——Flink
  • 使用AWS S3 + Lambda + MediaConvert 实现上传视频文件并自动转码
  • 一套GoldenGate → Kafka → Flink → MySQL 的端到端增量同步方案
  • 「Flink」业务搭建方法总结
  • 基于Flink CDC实现联系人与标签数据实时同步至ES的实践
  • Ansible文件部署与大项目多主机管理
  • 大数据开发面试题:美团秋招一面
  • 数据赋能(401)——大数据——持续学习与优化原则
  • 自建K8s集群无缝集成阿里云RAM完整指南