Network Embedding 相关论文

参考链接
https://blog.csdn.net/Dooonald/article/details/80853359
https://www.cnblogs.com/baiting/p/7355573.html
https://www.jianshu.com/p/e6660fa41119

1. HONE: Higher-Order Network Embeddings（HONE:高阶网络嵌入）
2.Network Embedding as Matrix Factorization: Unifying DeepWalk, LINE, PTE, and node2vec（基于网络嵌入的矩阵分解统一形式：DeepWalk、LINE、PTE和node2vec）
3.DeepWalk(Online Learning of Social Representations.)
DeepWalk是KDD 2014的一篇文章，彼时word2vec在文本上的成功应用掀起来一波向量化的浪潮，word2vec是根据词的共现关系，将词映射到低维向量，并保留了语料中丰富的信息。DeepWalk算法思路其实很简单，对图从一个节点开始使用random walk来生成类似文本的序列数据，然后将节点id作为一个个「词」使用skip gram训练得到「词向量」。

思路虽然简单，背后是有一定道理的，后面一些工作有证明这样做其实等价于特殊矩阵分解(Matrix Factorization)。而DeepWalk本身也启发了后续的一系列工作。

4.node2vec(Scalable Feature Learning for Networks)

node2vec在DW的基础上，定义了一个bias random walk的策略生成序列，仍然用skip gram去训练。

论文分析了BFS和DFS两种游走方式，保留的网络结构信息是不一样的。

DeepWalk中根据边的权重进行随机游走，而node2vec加了一个权重调整参数α：t是上一个节点，v是最新节点，x是候选下一个节点。d(t,x)是t到候选节点的最小跳数。

通过不同的p和q参数设置，来达到保留不同信息的目的。当p和q都是1.0的时候，它等价于DeepWalk。
5.MMDW(Max-Margin DeepWalk Discriminative Learning of Network Representation)

DW本身是无监督的，如果能够引入label数据，生成的向量对于分类任务会有更好的作用。

之前提到过有证明DW实际上是对于一个特殊矩阵M的分解，

这篇文章将DeepWalk和Max-Margin（SVM）结合起来，从损失函数看是这两部分组成：

1.训练的时候是分开优化，固定X,Y优化W和ξ，其实就是multi class 的 SVM。

2.固定W和ξ优化X,Y的时候稍微特殊一点，算了一个biased Gradient，因为损失函数里有x和w的组合。

这样在训练中同时优化discrimination和representation两部分,达到一个好的效果。

6.TADW(Network Representation Learning with Rich Text Information.)

文章里有DeepWark等同于M的矩阵分解的简单证明，而在实际中，一些节点上往往会有文本信息，所以在矩阵分解这个框架中，将文本直接以一个子矩阵的方式加入，会使学到的向量包含更丰富的信息。

文本矩阵是对TFIDF矩阵的SVD降维结果。
7.GraRep(Learning Graph Representations with Global Structural Information.)

沿用矩阵分解的思路，分析了不同k-step（random walk中的步数）所刻画的信息是不一样的：

所以可以对每一个step的矩阵作分解，最后将每个步骤得到的向量表示拼接起来最为最后的结果。论文中有完整的推导过程，这里就不赘述了。

8.LINE(Large scale information network embedding)

LINE分析了1st order proximity和2nd order proximity，其中一度相似性就是两个点直接相连，且边权重越大说明两个点越相似；而二度相似性则是两个点之间共享了很多邻居，则它们的相似性就很高。

文章中非常简单的方式构造了一个目标函数，能同时保留二者的信息。以一度相似性为例，节点i和j相连的经验概率就是和归一化后的权重，即p^1(i,j)=wij/W，而通过向量计算这个概率值是p1(i,j)=11+exp(−uTiuj)，目标函数就是让这两个分布距离最小，选择KL散度作为距离衡量函数就得到了最后的损失函数O1。

其中还有个优化的trick，edge-sampling algorithm：因为边的weight差异很大，直接用SGD效果不好，所以有个edge的采样，按照边的weight采样，然后每条边当做binary的算

9.NEU(Fast Network Embedding Enhancement via High Order Proximity Approximation)

这一篇是最近发表在IJCAI上的文章，说实话是一个很取巧的方式，文章分析了一些可以视为矩阵分解的embedding方法：

得到一个结论，如果矩阵分解f(A)=RC能更精确地包括高阶信息，效果是会更好的，但带来的结果是算法的计算复杂度更高。

所以文章采用一种很巧妙的方式，在（低阶low-order）矩阵分解的结果上更新，以获得更高阶（higher order）的分解结果，使最后的向量效果更好，这个方法是可以适用在多个算法中的。

论文中证明了一个bound来支持这样的更新方式。

10.CANE(Context-Aware Network Embedding for Relation Modeling)

首先考虑了节点上的Context，主要是文本，学习对每个节点产出Vt（文本向量）和Vs（结构向量）

Context-Free的话Vt是固定的，采用一个CNN的流程产出，如下图左边部分：对于一个文本，每个词的向量组成一个矩阵，然后以l为窗口在d个kernel上进行CNN的卷积操作，得到的结果按行取max来获得最后的文本向量。

Context-Aware的话引入了Attention机制，会考虑边e=(u,v)的tu和tv，通过下右图的流程产出Attention权重，再进行类似Pooling的操作（最后一步），这样节点在和不同的点连接的时候其作用是不一样的。

A是引入的待训练参数，物理意义可能为目标维的空间变换。

11.CENE(A General Framework for Content-enhanced Network Representation Learning)

这篇文章将文本转化为特殊的节点，这样就有两种连边，(节点-文档)以及(节点-节点)，对两种边一起建模，损失函数包括Lnn和Lnc，其中文本拆分为更细的句子，而句子有三种方式去embedding，下面有列举。

和很多方法一样，Loss的减数部分是负采样出来的。

12.Trans-Net(Translation-Based Network Representation Learning for Social Relation Extraction)

这篇paper也是最新2017在IJCAI上发表的，引入了机器翻译的思想，将Translation机制应用到中间，通过一个Autoencode对边上的labels(构成一个向量)进行编码，然后将节点和edge映射到同一个空间作加减。认为在这个空间里u+l=v’（每个节点有两个向量表示，分别指示在边的「起点」和「终点」时，用’进行区分）

这样预测的时候，简单用v’-u 就可以得到l，再用AE的解码器部分还原为element-binary的label set，就得到预测结果。

13.SSC-GCN(Semi-Supervised Classification with Graph Convolutional Networks)

https://github.com/tkipf/gcn

http://tkipf.github.io/graph-convolutional-networks/

和DW完全不同的思路，引入了一个spectral convolutions操作，不过目前看起来卷积是在整个图上做的，还没有支持mini-batch，最后目标是单个节点的分类和表示学习。

在之前的一些工作中，NN for graph都是对图级别做的，做分类等等，针对整个sub-graph，但这里本质上还是对单个节点。

这里的操作是这个意思：比如说下图X中每一行是一个图节点的input feature表示，那么通过A和W可以一次次改变这个矩阵的列数，其实就是在做「全连接」操作，只是A可能是稀疏的（转移矩阵），所以可以看成是某种卷积操作，每一步将与之相连的节点的权重信息汇合到输出的这一行中。

最后定义了一个semi-supervised的东西，可以将部分节点的label也作为loss的一部分，所以整体的损失函数是：

其中L0是有监督的部分，后面的Lreg实际上包含了边的信息，其中A是描述了所有边信息的adjacency matrix(or some function thereof).

比较有意思的是，这个网络甚至随机初始化，不训练，得到的结果分布都比较清晰（不同community的点最后会映射得比较接近），论文解释这个计算本身的逻辑有点像Weisfeiler-Lehman算法。

14.SDNE(Structural Deep Network Embedding)

中间有一部分逻辑和TransNet有点类似，它是对节点的描述特征向量（比如点的「邻接向量」）使用autoencoder编码，同时也对非0项加重惩罚了（没有连接并不代表一定没有，可能只是还没发生，所以这里对此进行了协调）：取autoencoder中间层作为向量表示，以此来让获得2nd proximity（相似邻居的点相似度较高，因为两个节点的「邻接向量」相似，说明它们共享了很多邻居，最后映射成的向量y也会更接近）。

对于1st proximity，通过评估有连边的点的vector距离来纳入考虑。

这两部分都纳入最后的损失函数，这里的Lreg是正则。

不然过这个计算要传入「邻接向量」进去的话，对于节点特别多的情况是个负担。

15.PTE(Predictive Text Embedding through Large-scale Heterogeneous Text Networks.)

这篇文章的主要意图是将predictive的信息在最后的embedding提现出来，但不要像CNN/RNN模型那样直接嵌套一个复杂的预测模型。所以他分别定义了三种network，word-word,word-document,word-label。都搞成类似二部图的样子，然后将各自的损失函数汇总到一起（形式都是类似的，定义经验概率和目标概率求KL距离），就是这么简单粗暴。

16.HINES(Heterogeneous Information Network Embedding for Meta Path based Proximity)
这篇文章对多元异构网络（知识图谱）进行了embedding，图中有不同类型的点，不同类型的连边。引入了meta path的概念，就是不同点之间的连边是按照一定的元信息连起来的，比如A1(Author)-P1(Paper)-A2(Author)这样一个meta path表示的信息可能就是A1和A2之间合作了一篇paper，这个概念可以很好地推广到很多场景。

一般在计算proximity的时候都是按照1st order这样的思路来的，但引入了meta path概念的时候，如果A和B在一条meta path的两端，那么它们的proximity应该更大，当然这也取决于这条元路径本身的信息量。

文章中选择了所有长度小于l的元路径，因为一般来说路径越长其信息量越少。

最后的损失函数同样是刻画分布的距离。

17.Learning Latent Representations of Nodes for Classifying in Heterogeneous Social Networks. Yann Jacob, Ludovic Denoyer, Patrick Gallinar. WSDM 2014. paper

18.Non-transitive Hashing with Latent Similarity Componets. Mingdong Ou, Peng Cui, Fei Wang, Jun Wang, Wenwu Zhu.KDD 2015. paper

19.GraRep: Learning Graph Representations with Global Structural Information. Shaosheng Cao, Wei Lu, Qiongkai Xu.CIKM 2015. paper code

20.LINE: Large-scale Information Network Embedding. Jian Tang, Meng Qu, Mingzhe Wang, Ming Zhang, Jun Yan, Qiaozhu Me. WWW 2015. paper code

21.Network Representation Learning with Rich Text Information. Cheng Yang, Zhiyuan Liu, Deli Zhao, Maosong Sun, Edward Y. Chang. IJCAI 2015. paper code

22.PTE: Predictive Text Embedding through Large-scale Heterogeneous Text Networks. Jian Tang, Meng Qu, Qiaozhu Mei.KDD 2015. paper code

23.Heterogeneous Network Embedding via Deep Architectures. Shiyu Chang, Wei Han, Jiliang Tang, Guo-Jun Qi, Charu C. Aggarwal, Thomas S. Huang. KDD 2015. paper

24.Deep Neural Networks for Learning Graph Representations. Shaosheng Cao, Wei Lu, Xiongkai Xu. AAAI 2016. papercode

25.Asymmetric Transitivity Preserving Graph Embedding. Mingdong Ou, Peng Cui, Jian Pei, Ziwei Zhang, Wenwu Zhu. KDD 2016. paper

26.Revisiting Semi-supervised Learning with Graph Embeddings. Zhilin Yang, William W. Cohen, Ruslan Salakhutdinov.ICML 2016. paper

27.node2vec: Scalable Feature Learning for Networks. Aditya Grover, Jure Leskovec. KDD 2016. paper code

28.Max-Margin DeepWalk: Discriminative Learning of Network Representation. Cunchao Tu, Weicheng Zhang, Zhiyuan Liu, Maosong Sun. IJCAI 2016. paper code

29.Structural Deep Network Embedding. Daixin Wang, Peng Cui, Wenwu Zhu. KDD 2016. paper

30.Community Preserving Network Embedding. Xiao Wang, Peng Cui, Jing Wang, Jian Pei, Wenwu Zhu, Shiqiang Yang.AAAI 2017. paper

31.Semi-supervised Classification with Graph Convolutional Networks. Thomas N. Kipf, Max Welling. ICLR 2017. papercode

32.CANE: Context-Aware Network Embedding for Relation Modeling. Cunchao Tu, Han Liu, Zhiyuan Liu, Maosong Sun. ACL 2017. paper code

33.Fast Network Embedding Enhancement via High Order Proximity Approximation. Cheng Yang, Maosong Sun, Zhiyuan Liu, Cunchao Tu. IJCAI 2017. paper code

34.TransNet: Translation-Based Network Representation Learning for Social Relation Extraction. Cunchao Tu, Zhengyan Zhang, Zhiyuan Liu, Maosong Sun. IJCAI 2017. paper code

35.metapath2vec: Scalable Representation Learning for Heterogeneous Networks. Yuxiao Dong, Nitesh V. Chawla, Ananthram Swami. KDD 2017. paper code

36.Learning from Labeled and Unlabeled Vertices in Networks. Wei Ye, Linfei Zhou, Dominik Mautz, Claudia Plant, Christian Böhm. KDD 2017.

37.Unsupervised Feature Selection in Signed Social Networks. Kewei Cheng, Jundong Li, Huan Liu. KDD 2017. paper

38.struc2vec: Learning Node Representations from Structural Identity. Leonardo F. R. Ribeiro, Pedro H. P. Saverese, Daniel R. Figueiredo. KDD 2017. paper code

39.Inductive Representation Learning on Large Graphs. William L. Hamilton, Rex Ying, Jure Leskovec. Submitted to NIPS 2017. paper code

40.Variation Autoencoder Based Network Representation Learning for Classification. Hang Li, Haozheng Wang, Zhenglu Yang, Masato Odagaki. ACL 2017. paper