当前位置: 首页 > news >正文

《BASeg: Boundary aware semantic segmentation for autonomous driving》论文解读

期刊:Neural Networks | Journal | ScienceDirect.com by Elsevier

年份:2023

代码:https://github.com/Lature-Yang/BASeg

摘要

语义分割是自动驾驶领域街道理解任务的重要组成部分。现有的各种方法要么专注于通过聚合全局或多尺度上下文信息来构建对象内部的一致性,要么简单地将语义特征与边界特征相结合来细化对象细节。尽管令人印象深刻,但大多数都忽略了内部对象和边界之间的长程依赖关系。本文提出一种边界感知网络(BASeg)用于语义分割,利用边界信息作为指导上下文聚合的重要线索。具体而言,在BASeg中提出了边界细化模块(Boundary Refined Module, BRM),通过骨架中的高层多尺度语义特征来细化Canny检测器粗粒度的底层边界特征;在此基础上,进一步提出了上下文聚合模块(Context Aggregation Module, CAM),以捕获边界区域与目标内部像素之间的长程依赖关系,实现相互增益并增强类内一致性。此外,所提出方法可以插入到其他CNN主干中以较小的计算预算获得更高的性能,并在数据集ADE20K、Cityscapes和CamVid上分别获得了45.72%、81.2%和77.3%的mIoU。与一些最新的基于resnet101的分割方法相比,大量的实验证明了该方法的有效性。

Introduction

主要贡献

  • 针对语义分割问题,提出了由边界特征、语义特征和聚合特征组成的语义分割框架BASeg,该框架采用基于注意力的机制来引导边界特征的上下文聚合。
  • 将边界细化模块(BRM)集成到BASeg中,从Canny检测器获得的粗轮廓中生成显著的细化边界信息。
  • 在Cityscapes和CamVid等公共驾驶场景数据集和ADE20K等语义数据集上进行了广泛的实验,证明了所提出模型的优越性能。

Method

网络架构

  • BASeg网络由边界流、语义流和聚合流组成,利用边界上下文信息来分割对象。
  • 边界流用于预测给定图像的二值边界,语义流用于生成语义特征图,聚合流用于捕获语义特征图和边界特征图之间的长距离依赖。
  • 网络架构包括使用ResNet101作为主干网络,ASPP(Atrous Spatial Pyramid Pooling)模块用于提取空间信息,以及引入全局平均池化分支以提供图像级信息。

主要组件: 

  • AGB:注意门块,过滤噪声并增强更高层级特征的细节
  • ASPP:Atrous空间金字塔池,融合多尺度特征
  • CAM:上下文聚合模块,用于捕获边界区域与对象内部像素之间的长距离依赖关系,实现相互增益并增强类内一致性。
  • BRM:边界细化模块,用于通过高级多尺度语义特征来细化Canny检测器粗略检测到的低级边界特征。
  • Canny:边缘检测器

2.1 Boundary Refine Module(BRM)

提升从Canny边缘检测器获得的粗略边界特征,并将其与深层的语义特征结合起来,以便于网络能够更准确地识别和细化对象的边界。

AGB中,特征信号X(来自Canny检测的轮廓特征)和门控信号G(来自语义特征图的高级特征)被结合起来,以增强边界区域的特征。

2.2 Context Aggregation Module (CAM)

负责捕获边界区域与对象内部像素之间的长距离依赖关系,以增强语义分割的性能。

计算过程:

  1. 特征转换:CAM通过三个1×1卷积层将语义特征F和边界特征B转换为三个新的特征图Q (Query), K (Key), V (Value)。这有助于减少参数数量和计算成本。
  2. 亲和力矩阵计算:通过计算Key和Query之间的亲和力矩阵S,来衡量不同像素间的相互影响。亲和力矩阵S是通过Key和Query的矩阵乘法以及Softmax函数得到的。
  3. 注意力机制:亲和力矩阵S反映了像素间的相关性,通过Softmax函数进行归一化处理,以突出显示重要像素对其他像素的影响。
  4. 特征适应:对亲和力矩阵S应用另一个1×1卷积层进行特征适应,以进一步优化特征表示。
  5. 上下文聚合:利用亲和力矩阵和Value特征图V,通过元素级求和操作,聚合输入的语义特征图和上下文注意力图,生成聚合后的特征图F。

 2.3 Loss function

用来衡量模型预测与真实标签之间的差异,并指导网络训练过程中的参数更新。BASeg采用了一个多任务损失函数,它联合了三个独立的损失来优化网络的不同部分:

1. body loss:计算了网络对每个像素预测的类别概率与真实标签之间的差异。

2. bound loss:衡量了预测的边界与真实边界标签之间的差异,有助于细化边界区域的分割。

 3. 辅助损失:像素级交叉熵损失,用于对选定的中间层特征进行辅助监督,以帮助网络学习更泛化的特征表示。中间层 F4 施加辅助监督来训练模型、

4. 联合损失:

http://www.lryc.cn/news/399793.html

相关文章:

  • 高效利用iCloud指南
  • 【MySQL】常见的MySQL日志都有什么用?
  • IDEA社区版使用Maven archetype 创建Spring boot 项目
  • C/C++ list模拟
  • android studio开发
  • PostgreSQl 物化视图
  • Win10工具:批量word转png图片
  • 期货量化交易客户端开源教学第八节——TCP通信服务类
  • bi项目笔记
  • 金蝶云苍穹-插件开发(四)GPT开发相关插件
  • 【机器学习】精准农业新纪元:机器学习引领的作物管理革命
  • 一键掌握天气动态 - 基于Vue和高德API的实时天气查询
  • PostgreSQL修改最大连接数
  • C# SqlSugar 如何使用Sql语句进行查询,并带参数进行查询,防注入
  • slf4j日志框架和logback详解
  • 解决@Data与@Builder冲突的N种策略
  • 一文看懂LUT(Lookup Table)查找表
  • 06 人以群分 基于邻域的协同过滤算法
  • SQL性能下降的原因
  • js的原型
  • FastAPI 学习之路(三十七)元数据和文档 URL
  • C 语言结构体
  • MySQl高级篇-主从复制
  • JMeter案例分享:通过数据验证的错误,说说CSV数据文件设置中的线程共享模式
  • 数学建模·Topsis优劣解距离法
  • 数学建模中常用的数据处理方法
  • C嘎嘎:函数模版和类模版
  • 使用 Apache Pulsar 构建弹性可扩展的事件驱动应用
  • 【国产开源可视化引擎Meta2d.js】视频
  • 零信任网络安全