Metric Learning的一个疑惑

我看的是Liu Yang的survey: Distance Metric Learning: A Comprehensive Survey.

里面总结道，Eric Xing等把Metric Learning formulate成这样一个凸优化问题：
\begin{align}
\min\limits_{A \in \mathbb{R}^{m \times m}} & \sum\limits_{({x_i},{x_j}) \in \mathcal{S}} {\left\| {{x_i} - {x_j}} \right\|_A^2}\\
\text{s.t.} \quad & A\succeq 0, \sum\limits_{(x_i, x_j)\in\mathcal{D}} {\left\| x_i-x_j\right\|}_A^2\ge 1
\end{align}

然后，解这个优化问题的困难主要是$A\succeq 0$这个半正定条件造成的，所以，为了简化计算，考虑将$A$在样本的特征空间中进行分解。
用同类约束集$\mathcal{S}$和异类约束集$\mathcal{D}$中的所有样本集合：
\begin{equation}
\mathcal{T}=(x_1, \cdots, x_n)
\end{equation}

然后对样本特征的pairwise correlation：
\begin{equation} \label{eq_M} M=\frac{1}{n}\sum_{i=1}^{n}x_i x_i^T \end{equation}
进行特征分解，得到前$K$个最大的特征值对应的特征向量$\{v_i\}_{i=1}^{K}$组合来逼近$A$：
\begin{equation} A=\sum_{i=1}^{K}\gamma_i v_i v_i^T,\quad \gamma_i\ge0,\quad i=1,\cdots,K \end{equation}
这其中，$\gamma_i$都是非负的。

我疑惑的是，在式子(\ref{eq_M})计算 $M$ 时，为什么用的是correlation（相关）而不是covariance（协方差）呢？也就是说，为什么不对样本 $\{x_i\}$ 进行零均值化呢？