siamese跟踪论文思考

转载自：https://zhuanlan.zhihu.com/p/34222060

通过作者在专栏里面放的几张响应图我们可以看到：SiamFC并不能区分不同的物体，图片上所有具有语义信息的物体都会得到较大的响应；

但是它在数据集上的表现确实是不错的，那么为什么呢，是因为加了窗函数，将周边的物体抑制掉了，猜测在跟踪的评价数据集中，大部分也是目标物体周围的其他物体较少，因此才能有不错的表现；

接下来作者进行了分析，既然网络所学习到的特征不够好，那么只需要学习到好的特诊好就行了，一个很容易想到的方法就是增大数据集，但是直接简单粗暴的增大数据集会有用吗？这里作者进行了分析，直接用训练集中的视频查看网络提取特征的区分能力，发现，在训练集中网络也不能区分开目标前景以及其他的干扰前景，然后得出结论直接加数据是不行的，这里我感觉，可就是因为训练集中，目标物体附近的干扰物太少，网络在学习的过程中，就偷懒了，只学习目标物体与背景之间的区别就可以了，这样就可以使loss降低了，因此我觉得，简单的加数据没有用，但是添加一些有干扰物的训练集是不是会有用呢？其实就是有意添加难例的负样本，这个在作者后续的DaSiameseRPN中有提到；

那么如何做负样本呢？作者在后续的论文中，提到了使用检测数据集中，同类但不同ID的物体作为负样本，这个是怎样加入到训练中的呢？训练集不应该只存在同一个视频中的间隔或者连续帧吗？正负样本的比例又是怎样的呢？