关于ADMM的研究（二）

本节讲述的两个优化问题，是非常常见的优化问题，也非常重要，我认为是ADMM算法通往并行和分布式计算的一个途径：consensus和sharing，即一致性优化问题与共享优化问题。

Consensus

4.1 全局变量一致性优化（Global variable consensus optimization）（切割数据，参数（变量）维数相同）

所谓全局变量一致性优化问题，即目标函数根据数据分解成

min s . t . \sum i = 1 N f i (x i), x i \in R n x i - z = 0

注意，此时

在ADMM算法框架下（先返回最初从扩增lagrangian导出的ADMM），这种问题解法相当明确：

L ρ (x 1, \dots, x N, z, y) = \sum i = 1 N (f i (x i) + y T i (

⟹ x k + 1 i z k + 1 y k + 1 i = arg min x (f i (x i

对

x k + 1 i y k + 1 i = arg min x (f i (x i) + (y k i) T

这种迭代算法写出来了，并行化那么就是轻而易举了，各个子数据分别并行求最小化，然后将各个子数据的解汇集起来求均值，整体更新对偶变量

另外，对于全局一致性优化，也需要给出相应的终止迭代准则，与一般的ADMM类似，看primal和dual的residuals即可

∥ r k ∥ 2 2 = \sum i = 1 N ∥ x k i - x ¯ k ∥ 2 2,

4.2 带正则项的全局一致性问题

下面就是要将之前所谈到的经典的机器学习算法并行化起来。想法很简单，就是对全局变量加上正则项即可，因此ADMM算法只需要改变下

min s . t . \sum i = 1 N f i (x i) + g (z), x i \in R n x

同样的，我们仍对

z k + 1 = arg min z (g (z) + (N ρ / 2) ∥ z - x ¯ k + 1 - (1 / ρ)

上述形式都取得是最原始的ADMM形式，简化处理，写成scaled形式即有

x k + 1 i z k + 1 u k + 1 i = arg min x (f i (x i)

这样对于后续处理问题就清晰明了多了。可以看到如果

切割大样本数据，并行化计算

在经典的统计估计中，我们处理的多半是大样本低维度的数据，现在则多是是大样本高维度的数据。对于经典的大样本低维度数据，如果机器不够好，那么就抽样部分数据亦可以实现较好估计，不过如果没有很好的信息，就是想要对大样本进行处理，那么切割数据，并行计算是一个好的选择。现在的社交网络、网络日志、无线感应网络等都可以这么实施。下面的具体模型都在受约束的凸优化问题中以及

有观测阵

A = ⎛⎝⎜⎜ A 1 ⋮ A N ⎞⎠⎟⎟

于是原来带正则项的优化问题就可以按照数据分解到多个子系统上去分别优化，然后汇集起来，形成一个global consensus问题。

min s . t . \sum i = 1 N l i (A i x i - b i) + r (z) x i - z

结合受约束的凸优化问题时所给出来的具体的ADMM算法解的形式，下面直接给出这些问题的ADMM迭代算法公式

（1）Lasso

x k + 1 i z k + 1 u k + 1 i = (A T i A i + ρ I)

如果切割的数据量小于维数

（2）Sparse Logistic Regression

x k + 1 i z k + 1 u k + 1 i = arg min x i (l i (

在

（3）SVM

注意分类问题和回归问题的损失函数不同，一般都是用

x k + 1 i z k + 1 u k + 1 i = arg min x i (1

4.3 一般形式的一致性优化问题（切割参数到各子系统，但各子系统目标函数参数维度不同，可能部分重合）

上述全局一致性优化问题，我们可以看到，所做的处理不过是对数据分块，然后并行化处理。但是更一般的优化问题是，参数空间也是分块的，即每个子目标函数

(x i) j = z G (i, j) = z^i

如果对所有

consensus

虽然如果用其他方法来做感觉会复杂，但是纳入到上述ADMM框架，其实只不过是全局一致性优化问题的一个局部化变形，不过此时不是对数据进行分块，是对参数空间进行分块

min s . t . \sum i = 1 N f i (x i) + g (z), x i \in R n i

后续想做平均化处理，即中间会发生重合的参数

z k + 1 g = \sum G ( i , j ) = g ( ( x k + 1 i ) j + ( 1 / ρ )

该式子表示就是

z k + 1 g = 1 k g \sum G ( i , j ) = g ( x k + 1 i )

同全局一致性优化问题一样，我们可以加上正则项，然后也可以变成带正则项的一般形式的一致性优化问题。此处不赘述，与全局基本类似。

与之前的全局变量一致性优化问题类似，共享问题也是一个非常一般而且常见的问题。他的形式如下：

min

这里的第一部分局部损失

min s . t . \sum i = 1 N f i (x i) + g (\sum i = 1 N z i) x

上述形式当然还不够简洁，需要进一步化简。因为

对于

min s . t . g (N z ¯) + (ρ / 2) \sum i = 1 N ∥ z i - a i ∥

当

x k + 1 i z k + 1 u k + 1 = arg min x i (f i (

另外，有证明如果强对偶性存在，那么global consensus问题与sharing问题是可以相互转化的，可以同时达到最优，两者存在着很紧密的对偶关系。

本节开头提过，sharing问题用来切分数据做并行化，也可以切分参数空间做并行化。这对于高维、超高维问题是非常有好处的。因为高维统计中，大样本是一方面问题，而高维度才是重中之重，如果能切分特征到低纬度中去求解，然后在合并起来，那么这将是一个很美妙的事情。上面利用regularized global consensus问题解决了切分大样本数据的并行化问题，下面利用sharing思想解决常见的高维数据并行化问题

切割变量（特征）空间，并行化处理

同样假设面对还是一个观测阵

A = [A 1, \dots, A N], A i \in R m \times n i, x = (x 1, \dots, x N), x \in

于是正则项也可以切分为

min

这个与sharing问题非常接近了，做点变化那就是sharing问题了

min s . t . l (\sum i = 1 N z i - b) + \sum i = 1 N r i (x i)

与之前的global consensus问题相比，ADMM框架

（1）Lasso

x k + 1 i z ¯ k + 1 u k + 1 = arg min x i (λ

当

（2）Group Lasso 与lasso基本一样，只是在

x k + 1 i = arg min x i (λ ∥ x i ∥ 2 + (ρ / 2) ∥ A i x i - A i x k

该问题其实就是按组最小化

if

涉及矩阵长短计算时，再看矩阵小技巧。

（3）Sparse Logstic Regression 也与lasso区别不大，只是

z ¯ k + 1 = arg min z ¯ (l (N z ¯) + (ρ / 2) ∥ z ¯ -

（4）SVM

SVM与之前的global consensus时候优化顺序反了过来，与logistic rgression只是在

x k + 1 i z ¯ k + 1 u k + 1 = arg min x i (λ

(z ¯ k + 1) i = ⎧⎩⎨⎪⎪ v i - N / ρ, - 1 / N, v i,

（5）Generalized Additive Models

广义可加模型是一个很适合sharing框架的问题。它本身就是对各个各个特征做了变化后（非参方法），重新表示观测的方式

b \approx \sum j = 1 n f j (x j)

当

min

其中有

f k + 1 j z ¯ k + 1 u k + 1 = arg min f i \in

最后再说一个经济学中很重要的sharing问题的特例，即交换问题（exchange problem）：

min s . t . \sum i = 1 N f i (x i) \sum i = 1 N x i = 0, x i

此时共享目标函数

x k + 1 i u k + 1 = arg min x i (f i (x i) + (ρ /

4.4 应用小总结

感觉上通过consensus problem和general consensus problem，我们可以看到并行和分布式部署优化方案的可行性。我们可以切分数据以及相应的目标函数，也可以切分变量到各个子系统上去，分别作优化，甚至我们可以大胆想象对不同类型数据块用不同的优化算法，结合consensus问题和ADMM算法，达到同一个global variable的优化目的；或者对不同变量在不同类型数据块上优化，即使有重叠，也可以结合general consensus思想和ADMM算法来解决这个问题。当然前提是能够定义好需要估计的参数和优化的目标函数！大规模部署的前景还是很不错的。下面具体分布式统计模型的构建便是ADMM算法非常好的应用。切分数据、切分变量（不过每个子系统的目标函数基本都是一样的，其实应该可以不同）

5. Nonconvex问题

5.1 变量选择（Regressor Selection）

5.2 因子模型（Factor Model Fitting）

5.3 双凸优化（Bi-convex Problem）

非负矩阵分解（Nonnegative Matrix Factorization）

6. 具体实施与实际计算结果

这块真的很实际，需要明白MPI的机理和Mapreduce、Graphlab等通信运作的机理，这样才好部署ADMM算法，因为中间有很多迭代，需要做好子节点间参数与整体参数的通信，保持迭代时能同步更新参数。看实际运作，MPI和GraphLab可能更适合这种框架，Hadoop也是可以的，不过毕竟不是为迭代算法所生，要做好需要进行一些优化。Boyd提到Hadoop其中的Hbase更适合这种框架，因为Hbase是一种大表格，带有时间戳，适合记录迭代的记录，这样就不容易导致分布计算时候搞不清是哪一步的迭代结果了，导致通信调整比较复杂。不过在MapReduce框架下实施ADMM算法是没有什么问题的，只要熟稔Hadoop的一些细节部分，基本没有太大问题。

8. 总结

一个好的一般性算法，我个人觉得是易实施，并可大规模应用许多问题。可以让统计学家卡在搞算法的瓶颈中解放出来，使得他们能快速用模拟，验证自己构建可能较为复杂的模型。只有当看到一个令人感到欣慰的结果时，那些模型的统计性质的证明才可能是有意义的，如果事先连希望都看不到，那证明起来都可能底气不足，让人难以信服，更难以大规模应用统计学家所构建的模型。现在是一个高维数据、海量数据的年代，算法的重要性更会凸显出来，一个好的模型如果没有一个有效的算法支撑，那么他将可能什么都不是，Lasso头几年所遭遇的冷遇也充分证明了这一点，再比如在没有计算机年代，Pearson的矩估计应用反而远多于Fisher的MLE估计方法也是一个道理。好的一般性的解决方案，我想这不管是优化理论，还是统计等其他应用学科，虽然知道没有最牛最终极的方法，但是能涌现一些大范围适用的方法，那就是再好不过了。一招鲜吃遍天，人还都是喜欢简单、安逸爱偷懒的嘛..