第四周:卷积神经网络 part3

第四周:卷积神经网络 part3

【第一部分】 问题总结

1.HybridSN 高光谱分类网络

HybridSN 网络解决的是对高光谱图像的的分类

加入了3D和2D卷积是的可以对高光谱图像进行很好的分类

其中1D、2D和3D的卷积区别在于

1D卷积是对只有一个维度的时间序列提取特征,比如信号、股价、天气、文本等等。普通的

2D卷积是提取的单张静态图像的空间特征,同神经网络结合之后在图像的分类、检测等任务上取得了很好的效果。但是对视频,即多帧图像就束手无策了,

因为2D卷积没有考虑到图像之间的时间维度上的物体运动信息,即光流场。

因此,为了能够对视频进行特征,以便用来分类等任务,就提出了3D卷积,在卷积核中加入时间维度。下图就很好的说明了2D卷积和3D卷积之间的差异。

 回顾论文HybridSN网络的结构

2.代码实现

 代码是参考了同学的,写的非常详细,也研究说明了    我们每次模型结果的不一样的原因

如果网络中添加了BN层和dropout层而不使用model.eval()的话,

每次测试的时候 模型并不是固定的,所以每次的分类结果可能并不一致。

HybridSN 高光谱分类网络的优化

 https://www.cnblogs.com/yuzhenfu/p/13509743.html

【第二部分】 视频学习

李夏《语义分割中的自注意力机制和低秩重重建》

视频中说道,我们的网络模型可以对抓子的识别但无法识别是狗还是猫的

是网络中缺少对图片语义相关的分割和联系,仅仅对局部的信息的识别

 

何恺明团队对视频中识别球和人之间的关系

 

语义分割对不同的物体的分割

 

程明明教授的报告《图像语义分割前沿进展》

为了获得多尺寸表示能力,要求特征提取可以以较大范围的感受野来描述不同尺寸的 object/part/context。

CNN通过简单的堆叠卷积操作得到coarse-to-fine的多尺寸特征。

VGG,Alex通过简单的堆积卷积让多尺寸信息成为了可能。

Inception系列通过组合不同大小的卷积核来获得多尺寸信息。

作为backbone的CNN表现更高效,多尺寸的表征能力更强。

对经过1x1输出后的特征图按通道数均分为4块,每一部分做3*3卷积或融合后进行卷积,这样可以得到不同感受野大小的输出。

【第三部分】 Paper阅读

CVPR 2019 的论文《Selective Kernel Networks》

 这篇论文可以对比SENet学习,也是对SENet的改进

SENet两个过程

Squeeze压缩:嵌入全局信息
将全局空间信息压缩成一个通道描述符,利用全局平均池化得到一个通道维度
(特征维度)上的统计数据。
Excitation激发:自适应重标定
根据输入特征的描述符,来给每个通道赋予权重。

 

 softmax函数

 在机器学习尤其是深度学习中,softmax是个非常常用而且比较重要的函数,尤其在多分类的场景中使用广泛。

他把一些输入映射为0-1之间的实数,并且归一化保证和为1,因此多分类的概率之和也刚好为1。
首先我们简单来看看softmax是什么意思。顾名思义,softmax由两个单词组成,其中一个是max。

对于max我们都很熟悉,比如有两个变量a,b。如果a>b,则max为a,反之为b。用伪码简单描述一下就是 if a > b return a; else b
另外一个单词为softmax存在的一个问题是什么呢?

如果将max看成一个分类问题,就是非黑即白,最后的输出是一个确定的变量。

更多的时候,我们希望输出的是取到某个分类的概率,或者说,

我们希望分值大的那一项被经常取到,而分值较小的那一项也有一定的概率偶尔被取到,

所以我们就应用到了soft的概念,即最后的输出是每个分类被取到的概率。

 

 

CVPR 2020 的论文《Strip Pooling: Rethinking Spatial Pooling for Scene Parsing》

 SPNet是运用条状卷积,打破传统1*1,3*3,5*5等方卷积。

这样跟好对条状物体的识别和分类

 

原文地址:https://www.cnblogs.com/yuzhenfu/p/13502272.html