《动手学深度学习》task06 批量归一化和残差网络;凸优化;梯度下降 课后作业

Task06. 批量归一化和残差网络,凸优化,梯度下降

课程笔记:https://www.cnblogs.com/guohaoblog/p/12356884.html

批量归一化和残差网络

1.nn. BatchNorm2d(6)的含义是

A全连接层的批量归一化, batchsize为6

B卷积层的批量归一化,batchsize为6

C全连接层的批量归一化,输出神经元个数为6

D卷积层的批量归-化,通道数为6

答案解释:

选项D正确,nn. BatchNorm2d()表示卷积层的BN,参数为通道数。 nn. BatchNorm1d()表示全连接层的BN ,参数为输出神经元个数。

2. 关于BN层描述错误的是

A卷积层的BN位于卷积计算之后 ,激活函数之前。

B拉伸参数和偏移参数均为超参数。

C预测时用移动平均估算整个训练数据集的样本均值和方差。

D BN层能使整个神经网络在各层的中间输出的数值更稳定。

答案解释:

选项B错误,拉伸参数和偏移参数为可学习参数。

3.关于ResNet描述错误的是

A残差网络由多个残差块组成。

B在残差块中,输口可通过跨层的数据线路更快地向前传播。

C可以通过不断加深网络层数来提高分类性能。

D较普通网络而言 ,残差网络在网络较深时能更好的收敛。

答案解释:

选项C错误,网络达到一定深度后再一味地增加层数反而会招致网络收敛变得更慢,准确率变得更差。

4.稠密连接网络过渡层中, 1*1卷积层的主要作用是

A减小通道数                                            B增加通道数

C引入非线性                                            D代替全连接层

答案解释:

选项A正确,参考过渡层的作用。

5.在稠密块中,假设由3个输出通道数为8的卷积层组成,稠密块的输入通道数是3 ,那么稠密块的输出通道数是

A 8                                            B 11                                             C 24                                             D 27

答案解释:

输出通道数=输入通道数+卷积层个数*卷积输出通道数,故选项A正确。

凸优化

1.优化方法的目标是最小化___损失函数值 ,深度学习的目标是最小化____损失函数值。

A训练集,测试集

B训练集,训练集

C测试集,测试集

D测试集,训练集

答案解释:

尽管优化方法可以最小化深度学习中的损失函数值,但本质上优化方法达到的目标与深度学习的目标并不相同。优化方法的目标是最小化训练集损失函数值,深度学习的目标是最小化测试集损失函数值,故选项A正确。

2.属于优化在深度学习中面临的挑战。

A局部最小值

B鞍点

C梯度消失

D以上都是

答案解释:

局部最小值,鞍点,梯度消失都是优化在深度学习中面临的挑战,故选项D正确。

3.以下对多维变量的鞍点描述正确的是:____。

A鞍点是对所有自变量一阶偏导数都为0 ,且Hessian矩阵特征值有正有负的点

B鞍点是对所有自变量一阶偏导数都为0 ,且Hessian矩阵特征值都为0的点

C鞍点是对所有自变量一阶偏导数有正有负 ,且Hessian矩阵特征值都为的点

D鞍点是对所有自变量一阶偏导数有正有负,且Hessian矩阵特征值有正有负的点

答案解释:

选项A正确,鞍点是对所有自变量一阶偏导数都为0 ,且Hessian矩阵特征值有正有负的点。

4.假设A和B都是凸集合,那以下是凸集合的是:_

A A和B的交集                                         B A和B的并集

C A和B的交集和并集都是                   D A和B的交集和并集都不是

答案解释:

选项A正确,A和B都是凸集合,A和B的交集是凸集合

5.有限制条件的优化问题可以用什么方法解决: .

A拉格朗日乘子法

B添加惩罚项

C投影法

D以上都是

答案解释:

选项D正确,有限制条件的优化问题可以用拉格朗日乘子法,添加惩罚项,投影法解决。

梯度下降

1.关于梯度下降描述正确的是:

A梯度下降是沿梯度方向移动自变量从而减小函数值。

B梯度下降学习率越大下降得越快,所以学习率越大越好。

C梯度下降学习率越大越容易发散,所以学习率越小越好。

D局部极小值是梯度下降算法面临的一个挑战。

答案解释:

选项A错误,梯度下降是沿着梯度的反方向移动自变量从而减小函数值的。

梯度下降学习率既不能太大,也不能太小,太大则容易跳过模型取得最小值点,太小模型训练时间过长。选项B,C错误,故选项D正确。

2.关于牛顿法说法错误的是: .

A牛顿法相比梯度下降的一个优势在于:梯度下降"步幅”的确定比较困难,而牛顿法相当于可以通过Hessian矩阵来调整"步幅"。

B牛顿法需要计算Hessian矩阵的逆,计算量比较大。

C相比梯度下降法,牛顿法可以避免局部极小值的问题。

D在牛顿法中 ,局部极小值也可以通过调整学习率来解决。

答案解释:

梯度下降法和牛顿法都会有局部极小值的问题,例如震荡函数,但可以通过调整学习率避免这种情况,故B选项错误。

3.随机梯度下降的时间复杂度是_

A O(1)

B O(n)

C O(logn)

D O(n2)

答案解析:选择A。

4.关于动态学习率的说法,错误是

A在最开始学习率设计比较大 ,加速收敛

B学习率可以设计为指数衰减或多项式衰减

C 在优化进行段时间后可以适当减小学习率来避免振荡

D动态学习率可以随着迭代次数增加而增大学习率

答案解释:

前面三种说法都正确,选项D错误,应该随着迭代次数增加减小学习率。

5.可以通过修改视频中train sgd函数的参数____来分别使用梯度 下降、随机梯度下降和小批量随机梯度下降。

A batch_ size                             B lr                     C num_ epochs              D都不可以

答案解释:

选项A正确,三者的区别在于每次更新时用的样本量。

原文地址:https://www.cnblogs.com/guohaoblog/p/12357517.html