跳至主要內容

Pyramid Scene Parsing Network

原创Xenny约 472 字大约 2 分钟深度学习深度学习PSPNet

Pyramid Scene Parsing Network

金字塔池化

  • 在深度神经网络中,感受野的大小决定了使用上下文信息的能力。常用的池化例如全局平均池化(GAP)利用全局信息进行池化,但在复杂场景下表现并不好,作者希望能够有一个基于子区域的全局上下文信息表示,于是提出了金字塔池化的概念。

    图1. PSPNet架构
    图1. PSPNet架构

    在金字塔池化模块中,特征图先经过池化操作(使用自适应平均池化)进行下采样,再进行上采样(使用二次线性差值)得到新的特征图并与原特征图拼接。

    同时金字塔池化融合了四个比例的特征(默认是[1, 2, 3, 6])。

膨胀卷积

  • 这个这里就不介绍了,PSPNet使用膨胀卷积进行特征提取,目的也是为了更大的感受野。

深监督

  • 又叫辅助loss(auxiliary loss),这个思想并不是在PSPNet中提出的,只是PSPNet也用到了辅助loss,所以在这里提及。

    深监督的目的是为了解决由于网络过深,loss值不能有效的反向传播到浅层。PSPNet对ResNet第三步最后一层卷积处增加了带权辅助loss,通过辅助loss优化网络。

    具体做法是在指定位置增加一个卷积块,在forward时将原位置处的输入值同时输入给该卷积块,最终通过该卷积块输出值与标签值计算得到辅助loss。