当前位置：首页 > news >正文

昇思12天

news 2025/8/9 20:00:48

FCN图像语义分割

1. 主题和背景

FCN是由UC Berkeley的Jonathan Long等人于2015年提出的，用于实现图像的像素级预测。

2. 语义分割的定义和重要性

语义分割是图像处理和机器视觉中的关键技术，旨在对图像中的每个像素进行分类。它在很多领域有重要应用，如人脸识别、物体检测、医学影像、自动驾驶等。

3. FCN模型简介

全卷积网络：FCN通过全卷积层进行像素级预测，不使用全连接层。
主要技术：
- 卷积化：使用VGG-16作为骨干网络，将全连接层转化为卷积层。
- 跳跃架构：结合高层语义信息和低层细节信息。
- 多次上采样：反卷积层逐步上采样到原图大小。

4. FCN-8s网络

数据准备：下载并处理训练数据。
导入VGG-16部分预训练权重。
损失函数：使用交叉熵损失函数。
自定义评价指标：
- Pixel Accuracy (PA): 标记正确的像素占总像素的比例。
- Mean Pixel Accuracy (MPA): 每个类内被正确分类像素数的比例平均。
- Mean Intersection over Union (MIoU): 交集和并集之比。
- Frequency Weighted Intersection over Union (FWIoU): 根据类出现频率加权。

5. 模型训练

使用VGG-16的预训练参数，实例化损失函数和优化器，编译并训练FCN-8s网络。

6. 模型评估与推理

展示了训练好的模型在推理阶段的效果。

7. 总结

FCN的优势在于：

接受任意大小的输入图像。
更加高效，避免了重复存储和计算问题。

不足之处在于：

结果不够精细，尤其是边界处。
没有充分考虑像素间的关系，缺乏空间一致性。

8. 引用

[1]Long, Jonathan, Evan Shelhamer, and Trevor Darrell. “Fully convolutional networks for Semantic Segmentation.” Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2015.