跳至主要內容
Pyramid Scene Parsing Network

Pyramid Scene Parsing Network

  • 原文地址:Pyramid Scene Parsing Network

  • 这是一种基于整合全局上下文信息的金字塔池化模块的网络架构,根据全局先验信息能够有效地进行图像分割。

金字塔池化

  • 在深度神经网络中,感受野的大小决定了使用上下文信息的能力。常用的池化例如全局平均池化(GAP)利用全局信息进行池化,但在复杂场景下表现并不好,作者希望能够有一个基于子区域的全局上下文信息表示,于是提出了金字塔池化的概念。

    图1. PSPNet架构

    在金字塔池化模块中,特征图先经过池化操作(使用自适应平均池化)进行下采样,再进行上采样(使用二次线性差值)得到新的特征图并与原特征图拼接。

    同时金字塔池化融合了四个比例的特征(默认是[1, 2, 3, 6])。


Xenny原创大约 2 分钟深度学习深度学习PSPNet
扩散模型(Diffusion model)

扩散模型(Diffusion model)

  • GAN的本质是将生成器的分布逼近真实分布。VAE则是训练两个分布q,pq, p分别表示从真实数据到噪声和噪声到生成数据的映射。

    扩散模型和VAE类似,也是一套从真实数据到噪声的分布以及噪声到生成数据的分布,但是在扩散模型中将这个过程分成了TT步。

    四种生成方式

    扩散模型包含两个部分:扩散和和逆扩散过程。


Xenny原创大约 5 分钟深度学习深度学习无监督学习扩散模型
地震波阻抗反演实验

地震波阻抗反演实验

准备工作

数据集

  • 我选用Convolutional neural network for seismic impedance inversion中的数据,其中包含2020道一维地震波以及波阻抗数据。

    图1. 数据展示

    正演参数为频率为30Hz的雷克子波,Δt=4.3875e4\Delta t = 4.3875e-4。图1中为数据集中的4道数据展示,其中波阻抗数据已进行缩放。

  • 随后将这些数据集划分为500个验证集、500个测试集和1020个训练集。


Xenny大约 4 分钟FWIFWICNN深度学习
全卷积网络(FCN)

全卷积网络(FCN)

  • 在CNN中,通过卷积的引入能够很好的对图片进行分类,但是如何识别图片中的物体依然是一个难题。CNN会在卷积层之后接入若干全连接层,将卷积层产生的特征图映射为固定长度的特征向量进行输出,每个值代表样本属于某个类别的概率。

    CNN分类

    全卷积网络(Fully Convolutional Nerworks,FCN)则是抛弃最终的全连接层,直接对图像进行像素级的分类,在FCN中将引入反卷积层将对卷积层的输出进行采样恢复为输入图像的大小,从而对每个像素产生一个预测值,最后逐个像素计算softmax分类损失获取最终分类预测。

    FCN分类

Xenny原创大约 4 分钟深度学习深度学习神经网络FCN
循环神经网络(RNN)

循环神经网络(RNN)

  • 在之前的网络中我们都是在关心层与层之间的协作,同层节点之间是无连接状态,信息按顺序从上一层到下一层,这种网络如果要处理一些上下文强关联的问题便显得无能为力。例如在NLP中要预测下一个单词则需要处理前文包含的各种特征,此时提出了一种新的神经网络,循环神经网络(Recurrent Neural Network,RNN),它对于序列化数据有很强的拟合能力。

延迟器

  • 在RNN隐藏层之中的节点不再是相互独立的,每个节点将包含三部分输入数据

    上一层的输出、自身上一时刻输出、上一节点输出。

    RNN网络结构

    可以看到隐藏层中的节点不仅有来自输入层的连接,还有节点之间的自连和互连。

  • 其中节点的自连接代表节点的输出会再次作为节点的输入,但这并不是马上完成的,数据会经过延迟器在下一时刻再进入该节点。

    也就是说在RNN中包含了对时序特征的处理,对于同一数据根据其前文不同也将得到不同的输出。这也便是RNN中最重要的特征,通过引入延迟器来让网络模型包含“记忆”。

  • 延迟器只是一个虚拟单元,也称为RNN的记忆单元,它的作用便是保存上一次的节点状态信息,每次节点计算时将使用上一次的状态信息参与进行并更新状态,可以理解为一个动态偏置,状态信息的计算与神经元计算类似,它也包含权重参数

    st=f(wxt+vst1) s_t = f(\boldsymbol{w}x_t + \boldsymbol{v}s_{t-1})

    其中tt代表时刻信息,ff是一个非线性激活函数,w,v\boldsymbol{w},\boldsymbol{v}分别为输入的权重参数和状态的权重参数。


Xenny原创大约 4 分钟深度学习深度学习神经网络RNN
卷积神经网络(CNN)

卷积神经网络(CNN)

  • 卷积神经网络(Convolutional Neural Networks, CNN)是深度学习中一种重要的神经网络结构,特别适用于处理图像相关的机器学习问题。CNN通过模拟人脑视觉皮层对图像的处理机制,自动提取图像中的特征,从而实现对图像的识别和理解。

    在传统的MLP中,网络被简单的分为了表现层(特征提取)和决策层(输出),而在CNN中网络被进一步细分,以便能够更好的提取图像中的局部特征,具体分层结构为

    1. 输入层:输入信息;
    2. 卷积层:提取图像底层特征;
    3. 池化层:减少数据维度,防止过拟合;
    4. 全连接层:汇总图像底层特征和信息;
    5. 输出层:根据输入进行决策输出预测值。

Xenny原创大约 10 分钟深度学习深度学习神经网络CNN