NIPS 2014

一个星期的NIPS终于开完了，Montreal的会场真是高大上，比去年的又大又新太多，设施很好，组织的也很好。因为离我们近，好多深藏不露的人物都来了，不光machine learning，好多vision，NLP和compbio的人也都来了，甚至Radford Neal这种鄙视publication的都出现了。NIPS感觉整体水平还是比ICML高一点，我喜欢NIPS的single track，促进领域间的互相了解，ICML多个track同时进行让人很容易就错过一些有意思的内容。

Montreal在北美是一个很不一样的城市，有点欧洲风。长期以来Montreal都是加拿大最大的城市，直到最近几十年才在经济和人口上被Toronto超过。Montreal还是世界上第二大说法语的城市，仅次于巴黎。不知道为什么，法语听起来觉得比英语悠闲一些，更有历史底蕴。可惜开会期间一直下雪，不方便在外面走，所以也没怎么出去玩。Montreal的冬天很冷，连接五大湖和大西洋的河道穿城而过，也带来相对更多的降水量，所以雨雪也更多一些。当地人应对寒冷冬天修建了大规模的地下通道系统，不光起了通道作用，也有商铺、餐馆娱乐设施汇集。这次住的酒店和会议中心就有地下通道连接，所以平时出门外面冰天雪地我们却连外套都不用穿。

做点学术上的总结吧。我在前一篇博文里提到的A* sampling得到了本届的Outstanding paper award，看来NIPS award committee跟我意见一致还是很有眼光的 :D，虽然这个文章我还是不是很懂。。。另一篇Outstanding paper award的作者Anshumali我居然也认识，暑假也在MSR做了intern，参加intern活动puzzle day我们还在同一个队上，虽然最后我们队排到倒数前二十，但have fun的目的还是达到了。

星期一的tutorial现在都想不起来学了些什么了。Chandra Chekuri做了一个关于最近一些关于large tree-width graph的进展的tutorial，不过不能完全follow。其他的基本上都没什么印象了。

这届NIPS的invited talk阵容还是很豪华的：

- Yurii Nesterov：optimization领域里面的神级人物，讲了怎么做huge-scale的optimization。他讲到随着数据越来越多，computation要从O(n)降到O(log n)才行，log n连把数据都读一遍都不够，就必须利用sparsity。

- 另外一个印象很深的是John Hopfield，算是computational neural science的祖宗级人物吧，三十年前NIPS初创就是Hopfield身边的一帮人搞起来的，也是桃李满天下。可惜真是老了。不过江山代有才人出，后继有人。

- 其他的大都不是很熟，好多都没赶上开头，也印象不是很深。

说说论文：

星期二

* A Differential Equation for Modeling Nesterov’s Accelerated Gradient Method: Theory and Insights

用differential equation来解释Nesterov's method。

* Inference by Learning: Speeding-up Graphical Model Optimization via a Coarse-to-Fine Cascade of Pruning Classifiers

嗯。。好像错过了这篇文章，但回头看觉得题目挺有意思的。

* Multilabel Structured Output Learning with Random Spanning Trees of Max-Margin Markov Networks

提出了一种把densely connected graph分解成一大堆randomly generated spanning tree的办法，分解完以后每个tree上做MAP inference都容易，learning也容易。有理论分析保证test time依然用这些random tree并在tree上做inference也可以达到很好的结果。

* Learning Distributed Representations for Structured Output Prediction

不光对input data用distributed representation，对output也用distributed representation，这样就可以有information sharing，可以exploit class之间的关系。

* Conditional Random Field Autoencoders for Unsupervised Structured Prediction

可能是因为架在graphical model和deep learning之间所以吸引了比较多关注吧，做的东西想法是对的但是做法我觉得不怎么make sense。

* Asymmetric LSH (ALSH) for Sublinear Time Maximum Inner Product Search (MIPS)

今年的两篇outstanding paper award之一。非常简单的方法在重要问题上得到了很好的效果，也有充分的理论分析。

* Semi-supervised Learning with Deep Generative Models

Deep generative model，加上neural variational inference可以用来做semi-supervised learning。

* Generative Adversarial Nets

一种有意思的generative model，外加有意思的training algorithm。

* Deep Symmetry Networks

一种convolution的generalization，convolution说的是空间shift invariance，这个文章研究的是更普遍的对称性，convolution是对称性的一种特例。

* Sequence to Sequence Learning with Neural Networks

Ilya的oral talk可以找来看一看，不过据说也有人不高兴，像Pedro Felzenszwalb好像听到一半就起身走了。

* Learning to Discover Efficient Mathematical Identities

听上去好像是train了一个language model，然后就可以generate新的数学公式。

* Learning Generative Models with Visual Attention

Application挺酷的。把discriminative model用在sampling中也是一个很好的idea。

* Searching for Higgs Boson Decay Modes with Deep Learning

看了这个title是不是有一种deep learning统一天下的感觉。

* A Multiplicative Model for Learning Distributed Text-Based Attribute Representations

现在所有人都在搞image to text generation了。

星期三

* Decomposing Parameter Estimation Problems

Directed graphical model里如果data都是observed的话，parameter estimation可以完全分解到每一个变量，并达到并行化。这个文章里有hidden variable，所以就通过Markov blanket来对graphical model进行分解，分解后的块儿大一些，但也可以并行地进行parameter estimation。

* Global Sensitivity Analysis for MAP Inference in Graphical Models

做了graphical model MAP inference的sensitivity analysis。sensitivity跟robustness其实是一回事，如果能把这种显式的robustness用在learning里面有希望得到robust的structured predictor。

* Do Deep Nets Really Need to be Deep?

当晚最popular的poster。核心是train完一个deep net之后这个neural net的output distribution包含很多除了prediction以外更丰富的class之间的信息，利用这个可以把一个deep net压缩到一个shallow net，这样prediction time可以大大减少。Geoff Hinton的dark knowledge也是类似的思路，不过视角不一样。

* Learning with Pseudo-Ensembles

另一种在neural net里做regularization的方法，跟contractive auto-encoder很像，也可以做semi-supervised learning。

* From MAP to Marginals: Variational Inference in Bayesian Submodular Models

用submodular energy function定义一个probabilistic distribution，在这个probabilistic distribution中可以做类似普通graphical model的“variational” marginal inference。之前好像大多用submodular function的都是做MAP，没有probabilistic model。

* Learning to Search in Branch and Bound Algorithms

通过learning的方法来做branch and bound中的pruning。

* Convex Deep Learning via Normalized Kernels

感觉Convex deep net的idea可以用来invert一个generative deep model。

* A* Sampling

今年NIPS的两篇outstanding paper award之一。如果你的distribution维度较低但很复杂，可以考虑使用。

* Large-Margin Convex Polytope Machine

类似于ensemble的一种方法。做binary classification的时候每一个class用多于一个的basis去表示。

* Unsupervised Transcription of Piano Music

应用挺有意思的。

星期四

* Discriminative Unsupervised Feature Learning with Convolutional Neural Networks

描述了一种训练用discriminative training做unsupervised feature learning的方法。在unsupervised learning setting中，没有label怎么做discriminative training呢？他们的想法很有意思，每个image自成一个class，每个class的训练数据通过把那个image做各种各样的transformation（shift/rotation/etc.）得到。这样一来，学到的feature就能invariant to各种transformation，同时又保留必要的信息，能和其他的image区分开来。缺点是每个image自成一类的话这个方法不够scalable，数据量一大class数量就会很大，这个方法就不那么work了。

* Modeling Deep Temporal Dependencies with Recurrent "Grammar Cells"

加强版LSTM，每一个memory cell不是一个vector而是有结构的grammar cell。

* Recurrent Models of Visual Attention

让convnet能够学到attention model，做prediction的时候不用看整个image，而是只看一个局部，这样就省了时间，而且也和人的vision过程更相近。attention是通过把图像限定在一个局部来实现的，但这个image cropping的操作是不连续的，所以没法直接backprop。不过这个model可以用神奇的reinforcement learning的方法来学。

* Unsupervised learning of an efficient short-term memory network

学到了导数和recurrence之间的关系。可以通过求导来得到recurrent network。

* Message Passing Inference for Large Scale Graphical Models with High Order Potentials

提出一种有效地进行parallel message passing的方法，不过要彻底理解我还需要学习一下region graph。

* Efficient Inference of Continuous Markov Random Fields with Polynomial Potentials

证明了偶数阶多项式energy的MRF都可以被拆成一个convex部分和一个concave部分的和。这样拆分后再做MAP inference能更有效地利用结构信息。

* Hardness of parameter estimation in graphical models

有意思的理论文章，说明了在特定的一类graphical model中，把data转化成sufficient statistics并不是最好的做法。也说明了另一些hardness result。这个idea有可能推广到其他的graphical model。

* Sequential Monte Carlo for Graphical Models

用sequential Monte Carlo的办法来从复杂的graphical model中进行采样。sampling和learning还可以同时进行。

* Joint Training of a Convolutional Network and a Graphical Model for Human Pose Estimation

提供了一些初步的结合convnet和graphical model的办法。

* Clamping Variables and Approximate Inference

通过把一些关键的变量固定的方法来分解graphical model，使得inference更容易也得到更tight的bound。

* Diverse Randomized Agents Vote to Win

做了一个下围棋的应用，很有意思。

* Augmentative Message Passing for Traveling Salesman Problem and Graph Partitioning

把TSP问题model成一个factor graph，然后在这个graph上跑message passing inference可以有效地得到近似解。不过没有理论上的近似保证。

Workshop：

我有一点不喜欢NIPS的workshop，因为所有workshop同时进行，而且都是一整天，很容易就错过了。不过很多workshop都有很多有意思的内容，有时候也觉得一天都不够尽兴。

这届NIPS最火的依然是deep learning workshop，独占最大的会场，容纳六百多人，估计跟很多其他的小型conference差不多规模了。第一个talk是来自Oxford的Phil Blunsom，讲了用convnet用在sentence representation learning上。Phil最近刚刚被买到deepmind。有意思的是Geoff Hinton给了第二个talk，但不是invited talk，而是他与Orial Vinyals和Jeff Dean投了一篇workshop paper，被workshop接收为oral，亏得没有被拒。Geoff给完talk之后的后面一个invited speaker显然被镇住了，紧张得不行。

另外几个印象深点儿的talk：一个是前NVIDIA员工，现百度员工，cuDNN作者介绍NVIDIA GPU对neural network的原生支持，有硬件厂商配合，以后写出来的neural net GPU代码肯定会更快。Vlad介绍了最近reinforcement learning和deep learning结合的工作，game play还有attention model。Stanford搞统计物理的Surya Ganguli讲了一些deep learning的理论问题，提供了看问题的一些新视角。

当天另外就只在learning semantics workshop待了一会儿，不过很有意思。赶上Berkeley的Alyosha Efros、Duke的Jeffrey Siskind还有MSR的Larry Zitnick讨论最近image to text generation的进展。Jeffrey Siskind在talk中搞笑的批评了现在“state-of-the-art”的方法，并举例说他们结果都非常烂。结果遭致全场抨击，因为他完全不了解最近这一块的新进展，所引用的“state-of-the-art”结果还是去年的结果，另外他自己提出的方法结果弱得多得多。不过勇于抛出controversial的观点对讨论是有帮助的，但批评别人之前还是先了解好批评的是什么比较好。

第二天因为我自己有一个poster，所以大部分时间都待在Transfer and Multitask Learning那里，这个workshop不咋地，但也没办法。Representation and learning of complex outputs更对我胃口，但错过了好多东西。有一个关于high energy particle physics的workshop也在这天，感觉machine learning在自己圈子之外的影响是越来越大，对我们这些从业者来说，这是一个好时代，也是一个有机会做出东西的时代。