N+1:创新点的设计

  • 定义、公式、模型、算法的提出;

0. 如何进行抽象,如何定义数学表达式

  • 二次衰减函数;
    • f(z)=1z2f(z)=11+z2
  • 噪声衰减因子:
    • 对值域的要求,单调性的要求,必须是可调的;
    • 2n1+2nn 是正整数,则其值域为 [2/3,),且为单调增,随着 n 的增大,而逐渐趋于1;

1. 两个高维向量(数据点)的条件相似性

  • 条件相似性:conditional similarity

两个高维向量 xi,xjRNxixj 为其欧氏距离,定义二者的条件相似性:

pj|i=exp(xixj2/2σ2i)kiexp(xixk2/2σ2i)

进一步将其改造为对称版本:

pij=pj|i+pi|j2N

2. KL-divergence

KL-divergence 应用在两个概率分布(p, q; p_{ij}, q_{ij})之间

比如,第 1 节,我们定义了 pij,同样的我们定义另外的相似度矩阵(similarity matrix),只不过这次针对的是映射后的点,而不是原始的数据点。

qij=f(xixj)kif(xixk),withf(z)=11+z2

显然,pij 是由原始数据本身决定的,而 qij 还取决于映射函数的选择。

因此,二者的 KL-divergence 为:

KL(P||Q)=i,jpijlogpijqij.

KL-divergence 可以用来度量两个相似度矩阵(P,Q)的距离。

3. 神经网络模型的修改方向

  • 对目标函数进行修改:modifications in the loss function
  • 对网络结构进行修改:modifications in the network architecture

4. 泛化

在信号处理中,稀疏性频繁地应用于,求解如下最小化问题:

argminx12yAx22+λx1

其中:

  • x=[x(1),,x(N)]T
  • y=[y(1),,y(M)]T
  • A 维度为 MN

将待优化的目标函数泛化为:

argminx12yAx22+nϕ(x(n))

这里的 ϕ() 指代的就是罚函数(penalty function,或者正则函数 regularization function);

之所以一般选择 ϕ(x)=λ|x| 来激励稀疏性,与其他罚函数所不同的地方在于它是一种凸函数(convex function)。

  • 凸函数的价值在于其能比非凸函数,更易被最优化;
  • 然而,非凸罚函数更有益于稀疏信号的稀疏度的获取;
原文地址:https://www.cnblogs.com/mtcnn/p/9422710.html