当前位置：首页 > news >正文

《BASeg: Boundary aware semantic segmentation for autonomous driving》论文解读

news 2025/7/8 7:08:40

期刊：Neural Networks | Journal | ScienceDirect.com by Elsevier

年份：2023

代码：https://github.com/Lature-Yang/BASeg

摘要

语义分割是自动驾驶领域街道理解任务的重要组成部分。现有的各种方法要么专注于通过聚合全局或多尺度上下文信息来构建对象内部的一致性，要么简单地将语义特征与边界特征相结合来细化对象细节。尽管令人印象深刻，但大多数都忽略了内部对象和边界之间的长程依赖关系。本文提出一种边界感知网络(BASeg)用于语义分割，利用边界信息作为指导上下文聚合的重要线索。具体而言，在BASeg中提出了边界细化模块(Boundary Refined Module, BRM)，通过骨架中的高层多尺度语义特征来细化Canny检测器粗粒度的底层边界特征;在此基础上，进一步提出了上下文聚合模块(Context Aggregation Module, CAM)，以捕获边界区域与目标内部像素之间的长程依赖关系，实现相互增益并增强类内一致性。此外，所提出方法可以插入到其他CNN主干中以较小的计算预算获得更高的性能，并在数据集ADE20K、Cityscapes和CamVid上分别获得了45.72%、81.2%和77.3%的mIoU。与一些最新的基于resnet101的分割方法相比，大量的实验证明了该方法的有效性。

Introduction

主要贡献：

针对语义分割问题，提出了由边界特征、语义特征和聚合特征组成的语义分割框架BASeg，该框架采用基于注意力的机制来引导边界特征的上下文聚合。
将边界细化模块(BRM)集成到BASeg中，从Canny检测器获得的粗轮廓中生成显著的细化边界信息。
在Cityscapes和CamVid等公共驾驶场景数据集和ADE20K等语义数据集上进行了广泛的实验，证明了所提出模型的优越性能。

Method

网络架构：

BASeg网络由边界流、语义流和聚合流组成，利用边界上下文信息来分割对象。
边界流用于预测给定图像的二值边界，语义流用于生成语义特征图，聚合流用于捕获语义特征图和边界特征图之间的长距离依赖。
网络架构包括使用ResNet101作为主干网络，ASPP（Atrous Spatial Pyramid Pooling）模块用于提取空间信息，以及引入全局平均池化分支以提供图像级信息。

主要组件：

AGB：注意门块，过滤噪声并增强更高层级特征的细节
ASPP：Atrous空间金字塔池，融合多尺度特征
CAM：上下文聚合模块，用于捕获边界区域与对象内部像素之间的长距离依赖关系，实现相互增益并增强类内一致性。
BRM：边界细化模块，用于通过高级多尺度语义特征来细化Canny检测器粗略检测到的低级边界特征。
Canny：边缘检测器

2.1 Boundary Refine Module（BRM）

提升从Canny边缘检测器获得的粗略边界特征，并将其与深层的语义特征结合起来，以便于网络能够更准确地识别和细化对象的边界。

AGB中，特征信号X（来自Canny检测的轮廓特征）和门控信号G（来自语义特征图的高级特征）被结合起来，以增强边界区域的特征。

2.2 Context Aggregation Module （CAM）

负责捕获边界区域与对象内部像素之间的长距离依赖关系，以增强语义分割的性能。

计算过程：

特征转换：CAM通过三个1×1卷积层将语义特征F和边界特征B转换为三个新的特征图Q (Query), K (Key), V (Value)。这有助于减少参数数量和计算成本。
亲和力矩阵计算：通过计算Key和Query之间的亲和力矩阵S，来衡量不同像素间的相互影响。亲和力矩阵S是通过Key和Query的矩阵乘法以及Softmax函数得到的。
注意力机制：亲和力矩阵S反映了像素间的相关性，通过Softmax函数进行归一化处理，以突出显示重要像素对其他像素的影响。
特征适应：对亲和力矩阵S应用另一个1×1卷积层进行特征适应，以进一步优化特征表示。
上下文聚合：利用亲和力矩阵和Value特征图V，通过元素级求和操作，聚合输入的语义特征图和上下文注意力图，生成聚合后的特征图F。