当前位置: 首页 > news >正文

MobileSal:极其高效的RGB-D显著性物体检测模型

摘要

问题一:什么叫做MobileSal?

MobileSal 是指一种用于移动设备上的显著性检测(Saliency Detection)方法,通常是针对在资源受限的环境(如智能手机)上运行的视觉模型。

问题二:什么叫做隐式恢复技术?

在图像去噪、图像修复或图像超分辨率等任务中,隐式恢复技术指的是利用模型(如深度神经网络)自动学习从损坏或低分辨率图像中恢复细节的过程。与传统的显式恢复方法不同,隐式恢复往往通过学习到的特征和模式来推断缺失的信息,而无需明确地计算每个恢复步骤。

问题三:什么叫做紧凑金字塔细化(CPR)操作?

紧凑金字塔细化(Compact Pyramid Refinement, CPR) 操作通常是指在图像处理、计算机视觉或深度学习中,用于多尺度特征提取和细化的技术。它结合了金字塔结构细化操作,以提高模型在不同尺度下的性能,尤其是在目标检测、图像分割等任务中。

金字塔结构:金字塔结构是一种多尺度处理方式,通常包括空间金字塔图像金字塔。它通过对图像进行不同层次的缩放或多尺度处理,使得模型能够在不同分辨率下提取特征。金字塔结构的关键优势在于能够捕捉到大范围的上下文信息以及细节信息。

细化:细化操作指的是在图像或特征的多尺度表示中,通过某些方法增强或优化重要的信息,以提升细节和结构的准确性。细化通常用于后处理阶段,目的是提升模型的精度和准确性,修正模糊或不清晰的部分。

紧凑:意味着该方法在金字塔结构的基础上进行优化,使得不同尺度之间的特征信息更加紧密和有效,避免冗余。

一 介绍

问题1:什么叫做深度信息?

深度信息(Depth Information):是指图像中每个像素到观察者(或摄像头)之间的距离。深度图像通常通过深度摄像头(如Kinect、LiDAR等)采集,能够提供关于场景中物体相对位置和空间关系的信息。

问题二:什么叫做MobileNets网络和ShuffleNets?

MobileNets:MobileNets 是由 Google 提出的一个轻量级卷积神经网络架构,专门优化了在移动设备上的计算效率。MobileNets 的关键创新是使用 深度可分离卷积(Depthwise Separable Convolutions)来替代标准的卷积操作,从而减少计算量和参数量。

关键特点:

  • 深度可分离卷积:标准卷积操作是对输入特征图与卷积核进行全局运算,而深度可分离卷积将卷积操作分为两步:

    1. 深度卷积(Depthwise Convolution):每个输入通道独立进行卷积,计算量大大减少。
    2. 逐点卷积(Pointwise Convolution):使用 1×11 \times 11×1 卷积对深度卷积后的输出进行合并,这样可以将信息从各个通道融合到一起。
  • 宽度乘子(Width Multiplier):MobileNets 引入了一个宽度乘子 α\alphaα,用来控制网络的宽度。通过调整这个乘子,可以在精度和计算效率之间进行平衡。

  • 分辨率乘子(Resolution Multiplier):MobileNets 还使用了分辨率乘子 β\betaβ,可以改变输入图像的分辨率,进一步减少计算量。

ShuffleNet:ShuffleNet 是由华为提出的另一种高效神经网络架构,旨在通过更巧妙的设计进一步提高计算效率。ShuffleNet 的一个关键特点是引入了 通道洗牌(Channel Shuffle) 操作。

关键特点:

  • 组卷积(Group Convolutions):与标准卷积不同,组卷积将输入特征图分成若干组,并在每组内部进行卷积,从而减少了卷积操作的计算量。组卷积通过限制每次卷积操作的输入通道数来减少计算量。

  • 通道洗牌(Channel Shuffle):在组卷积之后,通道洗牌操作打乱(shuffle)不同组之间的通道,使得各组之间的特征能够融合。这一操作显著提高了组卷积的表现,同时保持了计算量较低。

  • 减少计算量:ShuffleNet 通过组卷积和通道洗牌,显著减少了计算量,同时保证了特征信息能够充分流动。

二 相关工作

2.1 显著性物体检测

2.2 RGB-D显著性物体检测

2.3 高效的骨干网络

问题一:什么叫做MobileNetV2

MobileNetV2 是一种轻量级的卷积神经网络(CNN)架构,主要用于移动端和嵌入式设备上的计算机视觉任务。它的设计旨在提高效率和降低计算开销,同时尽量保持较高的准确率。MobileNetV2 相比于 MobileNetV1 引入了一些新颖的技术来优化网络结构,尤其是以下几个关键创新:

  1. 倒残差结构(Inverted Residuals):这是 MobileNetV2 的一个核心创新。它通过使用“倒残差块”,将传统的卷积结构反转,使得通道数在卷积操作中先扩展再压缩,从而提高了计算效率。

  2. 深度可分离卷积(Depthwise Separable Convolution):类似于 MobileNetV1,MobileNetV2 也使用深度可分离卷积,减少了计算量。深度可分离卷积通过将标准卷积拆分为两步:深度卷积(对每个输入通道单独卷积)和逐点卷积(1x1卷积)来减少计算量和参数量。

  3. 线性瓶颈(Linear Bottlenecks):该结构通过在网络末端使用线性激活函数,而不是传统的ReLU激活函数,来防止信息丢失,改善了模型的表达能力。

MobileNetV2 以其高效的计算和较小的模型大小,成为了许多移动设备、嵌入式设备和资源受限的环境中的常用模型。

三 方法

3.1 概述

问题一: 什么叫做RGB信息流和深度信息流?

在你的模型中,你分别使用 RGB 信息流和深度信息流进行特征提取。也就是说,你的模型会分别处理两种不同的数据源:一种是图像的 RGB(红绿蓝)颜色信息,另一种是深度图(即每个像素的深度值)。

  • RGB 信息流:这部分处理传统的颜色图像,提取颜色和纹理等特征。
  • 深度信息流:这部分则处理深度图像,深度图通常用于表示物体的距离或深度信息,它可以帮助模型理解物体的空间结构和几何形状。

问题二:什么叫做倒置残差块?

倒置残差块(Inverted Residual Block)是一种在神经网络架构中常见的模块,特别是在轻量级卷积神经网络(如 MobileNetV2)中广泛使用。它的核心思想是通过特定的结构设计来提高计算效率,减少模型的参数量,同时保持较高的表现。

倒置残差块的设计大致可以分为以下几个关键步骤:

  • 深度可分卷积(Depthwise Separable Convolution)

    • 与常规卷积不同,深度可分卷积将卷积操作分为两步:首先对每个输入通道独立进行卷积,然后将结果进行逐点卷积(1x1卷积)。这种方式显著减少了计算量。
  • 倒置结构

    • 在倒置残差块中,首先用一个 扩展卷积(通常是 1x1 卷积)来增加通道数,从而“扩展”特征空间。然后是深度可分卷积,用来对每个通道独立处理特征。最后,再通过一个 1x1 卷积将通道数压缩回原来的规模。
    • 这个扩展和压缩的过程就像“倒置”了传统卷积块的结构。通常,传统卷积是先压缩再扩展,而倒置残差块则是先扩展再压缩。
  • 残差连接

    • 重要的一点是,倒置残差块通过残差连接(skip connection)将输入和输出进行相加,这样可以更好地进行信息流的传递,避免梯度消失或爆炸的情况,帮助更深的网络训练。

3.2 RGB特征和深度特征的跨模态融合

3.3 隐式深度恢复

问题一:什么叫做SSIM 指标?

这是一个关于隐式深度恢复(IDR)损失函数的公式。其中,表示 IDR 的损失值,它通过 1 减去预测深度图和真实深度图之间的结构相似性(SSIM)来计算。在深度学习处理深度图相关任务时,通常希望预测的深度图与真实深度图尽可能相似。这里采用 1 减去 SSIM 的方式,是因为 SSIM 值越接近 1 表示两张图越相似,那么 1 减去 SSIM 得到的损失值就越小,意味着预测图和真实图越接近,符合损失函数越小模型性能越好的目标设定。

3.4 紧凑金字塔细化

CPR 模块将多层次的深层特征有效地融合起来。“D-Conv” 代表着深度可分离卷积。

四 实验

4.1 实验环境及设置

骨干网络:MobileNetV2 

数据集:NJU2K (1985)、DUTLF-D (1200)、NLPR (1000)、STERE (1000)、  SSD (80)和 SIP(927)

训练数据集:NJU2K (1500)、NLPR (700)

测试数据集:NJU2K(485)、NLPR   (300)  除了DUTLE-D数据集,其他数据集直接用于测试

在 DUTLF-D [51] 数据集上,我们按照 [51],  [80],使用其中的 800 张图片用作训练,400 张图片用做测试。

评估指标:F-measure  Fβ,平均绝对误差(MAE)

4.2 与著名方法的比较

量化比较    定性比较    CPU推断时间

4.3 消融研究

不同的RGB-D融合策略    为 RGB-D 融合节省了时间  深度信息恢复质量   IDR 损失函数的选择

损失函数中的 λ 常数    深度信息和 CMF 模块  CMF 模块中的初始 RGB-D 融合操作   CMF 模块的混合策略  紧凑金字塔细化  混合损失函数

4.4 IDR在其他任务中的应用

五 总结

http://www.lryc.cn/news/540516.html

相关文章:

  • 【个人总结】1. 开发基础 工作三年的嵌入式常见知识点梳理及开发技术要点(欢迎指正、补充)
  • 硬核技术组合!用 DeepSeek R1、Ollama、Docker、RAGFlow 打造专属本地知识库
  • MySQL官网驱动下载(jar包驱动和ODBC驱动)【详细教程】
  • idea 2019.3常用插件
  • 对CSS了解哪些?
  • TikTok账户安全指南:如何取消两步验证?
  • 从零到一:构建现代 React 应用的完整指南
  • 【Python爬虫(26)】Python爬虫进阶:数据清洗与预处理的魔法秘籍
  • 机器学习数学基础:28.卡方检验
  • 【工具插件类教学】实现运行时2D物体交互的利器Runtime2DTransformInteractor
  • 回调处理器
  • Redis-03高级篇中-多级缓存:
  • Spring Boot ShardingJDBC分库分表(草稿)
  • Jenkins 环境搭建---基于 Docker
  • 如何在自定义组件中使用v-model实现双向绑定
  • Ubuntu 下 nginx-1.24.0 源码分析 - ngx_pool_t 类型
  • 如何在 ubuntu 上使用 Clash 与 docker 开启代理拉起
  • linux tcpdump抓包
  • PLSQL连接Oracle 19c报错ORA-28040
  • 汽车免拆诊断案例 | 2010 款路虎揽胜车空调偶尔出风异常
  • 音视频入门基础:RTP专题(9)——FFmpeg接收RTP流的原理和内部实现
  • Nginx 安装及配置教程(Windows)【安装】
  • 《跟李沐学 AI》AlexNet论文逐段精读学习心得 | PyTorch 深度学习实战
  • 嵌入式0xDEADBEEF
  • B+树作为数据库索引结构的优势对比
  • 自适应SQL计划管理(Adaptive SQL Plan Management)在Oracle 12c中的应用
  • 什么是DeFi (去中心化金融)
  • 计算机毕业设计Python农产品推荐系统 农产品爬虫 农产品可视化 农产品大数据(源码+LW文档+PPT+讲解)
  • LLM论文笔记 15: Transformers Can Achieve Length Generalization But Not Robustly
  • SpringAI做对了什么