Siamese Network

一、算法总体框架

图1 算法总体框架

图中z代表的是模板图像，算法中使用的是第一帧的groundtruth；x代表的是search region，代表在后面的待跟踪帧中的候选框搜索区域； $ϕ$

从图一和文章题目我们可以很容易理解算法的框架，算法本身是比较搜索区域与目标模板的相似度，最后得到搜索去区域的score map。其实从原理上来说，这种方法和相关性滤波的方法很相似。其在搜索区域中逐点的目标模板进行匹配，将这种逐点平移匹配计算相似度的方法看成是一种卷积，然后在卷积结果中找到相似度值最大的点，作为新的目标的中心。

上图所画的 $ϕ$

二、具体实现

1、损失函数

在训练模型的时肯定需要损失函数，并通过最小化损失函数来获取最优模型。本文算法为了构造有效的损失函数，对搜索区域的位置点进行了正负样本的区分，即目标一定范围内的点作为正样本，这个范围外的点作为负样本，例如图1中最右侧生成的score map中，红色点即正样本，蓝色点为负样本，他们都对应于search region中的红色矩形区域和蓝色矩形区域。文章采用的是logistic loss，具体的损失函数形式如下：
对于score map中了每个点的损失：

l (y, v) = log (1 + exp (- y v))

其中 $v$

L (y, v) = 1 | D | \sum u \in D l ( y [ u ] , v [ u ] )

$v$