N+1：创新点的设计

0. 如何进行抽象，如何定义数学表达式

二次衰减函数；
- f(z)=1z2 ⇒ f(z)=11+z2
噪声衰减因子：
- 对值域的要求，单调性的要求，必须是可调的；
- 2n1+2n，n 是正整数，则其值域为 [2/3,∞)，且为单调增，随着 n 的增大，而逐渐趋于1；

两个高维向量 xi,xj∈RN，∥xi−xj∥ 为其欧氏距离，定义二者的条件相似性：

p j | i = exp ( - ∥ x i - x j ∥ 2 / 2 σ 2 i ) \sum k \neq i exp ( - ∥ x i - x k ∥ 2 / 2 σ 2 i )

进一步将其改造为对称版本：

p i j = p j | i + p i | j 2 N

KL-divergence 应用在两个概率分布（p, q; p_{ij}, q_{ij}）之间

比如，第 1 节，我们定义了 pij，同样的我们定义另外的相似度矩阵（similarity matrix），只不过这次针对的是映射后的点，而不是原始的数据点。

q i j = f ( ∥ x i - x j ∥ ) \sum k \neq i f ( ∥ x i - x k ∥ ), with f (z) = 1 1 + z 2

显然，pij 是由原始数据本身决定的，而 qij 还取决于映射函数的选择。

因此，二者的 KL-divergence 为：

K L (P | | Q) = \sum i, j p i j log p i j q i j .

KL-divergence 可以用来度量两个相似度矩阵（P,Q）的距离。

在信号处理中，稀疏性频繁地应用于，求解如下最小化问题：

arg min x 1 2 ∥ y - A x ∥ 22 + λ ∥ x ∥ 1

其中：

将待优化的目标函数泛化为：

arg min x 1 2 ∥ y - A x ∥ 22 + \sum n ϕ (x (n))

这里的 ϕ(⋅) 指代的就是罚函数（penalty function，或者正则函数 regularization function）；

之所以一般选择 ϕ(x)=λ|x| 来激励稀疏性，与其他罚函数所不同的地方在于它是一种凸函数（convex function）。