Pyramid Scene Parsing Network
原创约 472 字大约 2 分钟
Pyramid Scene Parsing Network
这是一种基于整合全局上下文信息的金字塔池化模块的网络架构,根据全局先验信息能够有效地进行图像分割。
金字塔池化
在深度神经网络中,感受野的大小决定了使用上下文信息的能力。常用的池化例如全局平均池化(GAP)利用全局信息进行池化,但在复杂场景下表现并不好,作者希望能够有一个基于子区域的全局上下文信息表示,于是提出了金字塔池化的概念。
在金字塔池化模块中,特征图先经过池化操作(使用自适应平均池化)进行下采样,再进行上采样(使用二次线性差值)得到新的特征图并与原特征图拼接。
同时金字塔池化融合了四个比例的特征(默认是[1, 2, 3, 6])。
膨胀卷积
- 这个这里就不介绍了,PSPNet使用膨胀卷积进行特征提取,目的也是为了更大的感受野。
深监督
又叫辅助loss(auxiliary loss),这个思想并不是在PSPNet中提出的,只是PSPNet也用到了辅助loss,所以在这里提及。
深监督的目的是为了解决由于网络过深,loss值不能有效的反向传播到浅层。PSPNet对ResNet第三步最后一层卷积处增加了带权辅助loss,通过辅助loss优化网络。
具体做法是在指定位置增加一个卷积块,在
forward
时将原位置处的输入值同时输入给该卷积块,最终通过该卷积块输出值与标签值计算得到辅助loss。