第四周：卷积神经网络 part3

第四周：卷积神经网络 part3

【第一部分】问题总结

1.HybridSN 高光谱分类网络

HybridSN 网络解决的是对高光谱图像的的分类

加入了3D和2D卷积是的可以对高光谱图像进行很好的分类

其中1D、2D和3D的卷积区别在于

1D卷积是对只有一个维度的时间序列提取特征，比如信号、股价、天气、文本等等。普通的

2D卷积是提取的单张静态图像的空间特征，同神经网络结合之后在图像的分类、检测等任务上取得了很好的效果。但是对视频，即多帧图像就束手无策了，

因为2D卷积没有考虑到图像之间的时间维度上的物体运动信息，即光流场。

因此，为了能够对视频进行特征，以便用来分类等任务，就提出了3D卷积，在卷积核中加入时间维度。下图就很好的说明了2D卷积和3D卷积之间的差异。

回顾论文HybridSN网络的结构

2.代码实现

代码是参考了同学的，写的非常详细，也研究说明了我们每次模型结果的不一样的原因

如果网络中添加了BN层和dropout层而不使用model.eval（）的话，

每次测试的时候模型并不是固定的，所以每次的分类结果可能并不一致。

HybridSN 高光谱分类网络的优化

https://www.cnblogs.com/yuzhenfu/p/13509743.html

【第二部分】视频学习

李夏《语义分割中的自注意力机制和低秩重重建》

视频中说道，我们的网络模型可以对抓子的识别但无法识别是狗还是猫的

是网络中缺少对图片语义相关的分割和联系，仅仅对局部的信息的识别

何恺明团队对视频中识别球和人之间的关系

语义分割对不同的物体的分割

程明明教授的报告《图像语义分割前沿进展》

为了获得多尺寸表示能力，要求特征提取可以以较大范围的感受野来描述不同尺寸的 object/part/context。

CNN通过简单的堆叠卷积操作得到coarse-to-fine的多尺寸特征。

VGG,Alex通过简单的堆积卷积让多尺寸信息成为了可能。

Inception系列通过组合不同大小的卷积核来获得多尺寸信息。

作为backbone的CNN表现更高效，多尺寸的表征能力更强。

对经过1x1输出后的特征图按通道数均分为4块，每一部分做3*3卷积或融合后进行卷积，这样可以得到不同感受野大小的输出。

【第三部分】 Paper阅读

CVPR 2019 的论文《Selective Kernel Networks》

这篇论文可以对比SENet学习，也是对SENet的改进

SENet两个过程

Squeeze压缩:嵌入全局信息
将全局空间信息压缩成一个通道描述符，利用全局平均池化得到一个通道维度
(特征维度)上的统计数据。
Excitation激发:自适应重标定
根据输入特征的描述符，来给每个通道赋予权重。

softmax函数

在机器学习尤其是深度学习中，softmax是个非常常用而且比较重要的函数，尤其在多分类的场景中使用广泛。

他把一些输入映射为0-1之间的实数，并且归一化保证和为1，因此多分类的概率之和也刚好为1。
首先我们简单来看看softmax是什么意思。顾名思义，softmax由两个单词组成，其中一个是max。

对于max我们都很熟悉，比如有两个变量a,b。如果a>b，则max为a，反之为b。用伪码简单描述一下就是 if a > b return a; else b。
另外一个单词为softmax存在的一个问题是什么呢？

如果将max看成一个分类问题，就是非黑即白，最后的输出是一个确定的变量。

更多的时候，我们希望输出的是取到某个分类的概率，或者说，

我们希望分值大的那一项被经常取到，而分值较小的那一项也有一定的概率偶尔被取到，

所以我们就应用到了soft的概念，即最后的输出是每个分类被取到的概率。

CVPR 2020 的论文《Strip Pooling: Rethinking Spatial Pooling for Scene Parsing》

SPNet是运用条状卷积，打破传统1*1，3*3，5*5等方卷积。

这样跟好对条状物体的识别和分类