Pyramid Scene Parsing Network

原创Xenny2024/7/3约 474 字大约 2 分钟

Pyramid Scene Parsing Network

原文地址：Pyramid Scene Parsing Network
这是一种基于整合全局上下文信息的金字塔池化模块的网络架构，根据全局先验信息能够有效地进行图像分割。

金字塔池化

在深度神经网络中，感受野的大小决定了使用上下文信息的能力。常用的池化例如全局平均池化（GAP）利用全局信息进行池化，但在复杂场景下表现并不好，作者希望能够有一个基于子区域的全局上下文信息表示，于是提出了金字塔池化的概念。
图1. PSPNet架构
在金字塔池化模块中，特征图先经过池化操作（使用自适应平均池化）进行下采样，再进行上采样（使用二次线性差值）得到新的特征图并与原特征图拼接。
同时金字塔池化融合了四个比例的特征（默认是[1, 2, 3, 6]）。

膨胀卷积

这个这里就不介绍了，PSPNet使用膨胀卷积进行特征提取，目的也是为了更大的感受野。

深监督

又叫辅助loss（auxiliary loss），这个思想并不是在PSPNet中提出的，只是PSPNet也用到了辅助loss，所以在这里提及。
深监督的目的是为了解决由于网络过深，loss值不能有效的反向传播到浅层。PSPNet对ResNet第三步最后一层卷积处增加了带权辅助loss，通过辅助loss优化网络。
具体做法是在指定位置增加一个卷积块，在forward时将原位置处的输入值同时输入给该卷积块，最终通过该卷积块输出值与标签值计算得到辅助loss。