单阶经典检测器: YOLO V2 (二)

依赖锚框: YOLO v2

  针对YOLO v1的不足, 2016年诞生了YOLO v2。 相比起第一个版本, YOLO v2预测更加精准(Better) 、 速度更快(Faster) 、 识别的物体类别也更多(Stronger) , 在VOC 2007数据集上可以得到mAP 10%以上的提升效果。

  YOLO v2从很多方面对YOLO做出了改进, 大体可以分为网络结构的改善、 先验框的设计及训练技巧3个方面, 下面主要就这三部分进行讲解。

1. 网络结构的改善

  首先, YOLO v2对于基础网络结构进行了多种优化, 提出了一个全新的网络结构, 称之为DarkNet。 原始的DarkNet拥有19个卷积层与5个池化层, 在增加了一个Passthrough层后一共拥有22个卷积层, 精度与VGGNet相当, 但浮点运算量只有VGGNet1/5左右, 因此速度极快,具体结构如图6.4所示。

  

  相比起v1版本的基础网络, DarkNet进行了以下几点改进:
    ·BN层: DarkNet使用了BN层, 这一点带来了2%以上的性能提升。BN层有助于解决反向传播中的梯度消失与爆炸问题, 可以加速模型的收敛, 同时起到一定的正则化作用。 BN层的具体位置是在每一个卷积之后, 激活函数LeakyReLU之前。
    ·用连续3×3卷积替代了v1版本中的7×7卷积, 这样既减少了计算量, 又增加了网络深度。 此外, DarkNet去掉了全连接层与Dropout层。
    ·Passthrough层: DarkNet还进行了深浅层特征的融合, 具体方法是将浅层26×26×512的特征变换为13×13×2048, 这样就可以直接与深层 13×13×1024的特征进行通道拼接。 这种特征融合有利于小物体的检测,也为模型带来了1%的性能提升。
    ·由于YOLO v2在每一个区域预测5个边框, 每个边框有25个预测值, 因此最后输出的特征图通道数为125。 其中, 一个边框的25个预测值分别是20个类别预测、 4个位置预测及1个置信度预测值。 这里与v1有很大区别, v1是一个区域内的边框共享类别预测, 而这里则是相互独立的类别预测值。
  下面从代码角度介绍如何搭建DarkNet网络, 源代码文件见darknet.py。 和第3章常见的基础结构一样, 在实现时, 可以定义一个_make_layers函数, 通过输入不同的配置, 可以快速搭建整个基础网络。

   为了完成整个网络的搭建、 前向与自动反向传播, 在此定义了一个DarkNet19类, 继承自nn.Module, 通过网络配置信息快速构建出每一个模块。

 2. 先验框的设计
  YOLO v2吸收了Faster RCNN的优点, 设置了一定数量的预选框,使得模型不需要直接预测物体尺度与坐标, 只需要预测先验框到真实物体的偏移, 降低了预测难度。

  关于先验框, YOLO v2首先使用了聚类的算法来确定先验框的尺度, 并且优化了后续的偏移计算方法, 下面详细介绍这两部分。先验框的设计为YOLO v2带来了7%的召回率提升。

2.1 聚类提取先验框尺度
  Faster RCNN中预选框(即Anchor) 的大小与宽高是由人手工设计的, 因此很难确定设计出的一组预选框是最贴合数据集的, 也就有可能为模型性能带来负面影响。
  针对此问题, YOLO v2通过在训练集上聚类来获得预选框, 只需要设定预选框的数量k, 就可以利用聚类算法得到最适合的k个框。 在聚类时, 两个边框之间的距离使用式(6-2) 的计算方法, 即IoU越大, 边框距离越近。

  在衡量一组预选框的好坏时, 使用真实物体与这一组预选框的平均IoU作为标准。 值得一提的是, 这一判断标准在手工设计预选框的方法中也可以使用。
  至于预选框的数量选取, 显然数量k越多, 平均IoU会越大, 效果会更好, 但相应的也会带来计算量的提升, YOLO v2在速度与精度的权衡中选择了预选框数量为5
2.2 优化偏移公式
  有了先验框后, YOLO v2不再直接预测边框的位置坐标, 而是预测先验框与真实物体的偏移量。 在Faster RCNN中, 中心坐标的偏移公式如式(6-3) 所示。

 

  公式中wahaxaya代表Anchor的宽高与中心坐标, txty是模型预测的Anchor相对于真实物体的偏移量, 经过计算后得到预测的物体中心坐标xy

  YOLO v2认为这种预测方式没有对预测偏移进行限制, 导致预测的边框中心可以出现在图像的任何位置, 尤其是在训练初始阶段, 模型参数还相对不稳定。 例如tx1-1时, 预测的物体中心点会有两个宽度的差距。

  公式中参数的意义可以与图6.5结合进行理解, 图中实线框代表预测框, 虚线框代表先验框:
    ·cxcy代表中心点所处区域左上角的坐标, pwph代表了当前先验框的宽高, 如图6.5中的虚线框所示。

    ·σ(tx)σ(ty)代表预测框中心点与中心点所处区域左上角坐标的距离, 加上cxcy即得到预测框的中心坐标。
    ·twth为预测的宽高偏移量。 先验框的宽高乘上指数化后的宽高偏移量, 即得到预测框的宽高。
    ·公式中的σ代表Sigmoid函数, 作用是将坐标偏移量化到(0,1)区间,这样得到的预测边框的中心坐标bxby会限制在当前区域内, 保证一个区域只预测中心点在该区域内的物体, 有利于模型收敛。
    ·YOLO v1将预测值t0作为边框的置信度, 而YOLO v2则是将做Sigmoid变换后的σ(t0)作为真正的置信度预测值。
  下面从代码角度介绍一下DarkNet的前向过程, 模型的输出包含每一个预选框的类别预测、 位置预测及置信度预测, 然后再进一步处理为可以方便计算损失的形式。

3. 正、 负样本与损失函数
关于正、 负样本的选取, YOLO v2基本保持了之前的方法, 其基本流程如下:

  首先利用式(6-4) , 将预测的位置偏移量作用到先验框上, 得到预测框的真实位置。

  如果一个预测框与所有真实物体的最大IoU小于一定阈值(默认为0.6) 时, 该预测框视为负样本。

  每一个真实物体的中心点落在了某个区域内, 该区域就负责检测该物体。 具体做法是将与该物体有最大IoU的预测框视为正样本。
  确定了正样本与负样本后, 最后是网络损失的计算。 由于利用了先验框, YOLO v2的损失函数也相应的进行了改变, 公式如式(6-5) 所示。

 

  损失一共有5项组成, 意义分别如下:

    ·第一项为负样本的置信度损失, 公式中1max IoU<Thresh表示最大IoU小于阈值, 即负样本的边框, λnoobj是负样本损失的权重, boijk为置信度σ(to)
    ·第二项为先验框与预测框的损失, 只存在于前12800次迭代中, 目的是使预测框先收敛于先验框, 模型更稳定。

    ·第三项为正样本的位置损失, 表示筛选出的正样本, 为权重。

    ·后两项分别为正样本的置信度损失与类别损失, 为置信度的真值。
  在计算正、 负样本的过程中, 虽然有些预测框的最大IoU可能小于0.6, 即被赋予了负样本, 但如果后续是某一个真实物体对应的最大IoU的框时, 该预测框会被最终赋予成正样本, 以保证recall

  有些预测框的最大IoU大于0.6, 但是在一个区域内又不是与真实物体有最大IoU, 这种预测框会被舍弃掉不参与损失计算, 既不是正样本也不是负样本。

原文地址:https://www.cnblogs.com/zhaopengpeng/p/13803461.html