06-Message Passing and Node Classification 图机器学习之信息传播与节点分类

06-Message Passing and Node Classification 图机器学习之信息传播与节点分类

信息传播和节点分类

给定网络中一些节点的label，如何确定其他节点的label

例如，一个网络中一些节点是诈骗犯，一些节点是可信度高的人，那么如何判断其他节点？

半年监督节点分类

协作分类：collective classification

利用网络中的关联关系

接下来，今天会学3个技巧：

1）relational classification ：关系分类

2）iterative classification：迭代分类

3）belief propagation：置信传播

网络中的关联存在

导致相关关系的3类主要依赖类型：

1）趋同性

2）影响力

3）交互性？

预测米黄色的节点的label

1）相似的节点通常会紧密关联或者直接相连

2）节点的label通常依赖于：节点的特征；节点的邻居；节点邻居的特征

假设网络具备趋同性，那么预测灰色节点的label

W：带权重的连接矩阵

Y：label +1，-1,0（待打标签）

使用节点间的相互关联关系进行分类

马尔科夫假设：节点i的label yi由他的邻居们Ni决定

分为三步：1）local classifier：分配初始的label 2）relational classifier：捕捉节点间的关联关系 3）collective inference:相关关系的传播

local classifier: 使用节点自身属性进行分类，不实用网络关联信息

relational classifier：学习一个分类器用于基于节点邻居的标签或属性给节点打标签

collective inference：迭代的将relational classifier应用于每一个节点，直到邻居间变得较为一致。网络结果会影响最终的判断

精确的推力是一个NP-hard问题，需要一些近似的推理。

每一节点有特征向量fi

找到节点对应的label的概率P（yi）

基于概率的关系分类

对于待labeled的节点，统一初始化标签Y

随机更新节点直到最大迭代次数达到

公式如下，但收敛并不能保证，并且模型未使用节点特征信息

例子如下，已打好标签的p=1或0，其余的统一设为0.5

上述中，未使用节点的自身属性，那么如何使用他们呢？

iterative classification的重要思想：综合节点属性及邻居标签对节点进行分类

每个节点有一向量ai

训练一个分类器，输入为ai

节点的邻居数目是多样的，因此可以集合使用：count，mode，proportion，mean， exists等

iterative classifiers的框架：

1. bootstrap phase：

节点特征向量的生成

训练分类器，分类器可使用SVM,KNN等

2. iterative phase：

每个节点重复：更新节点特征向量，更新分类器的预测结果yi

迭代直到标签稳定或最大次数完成

注意：不能保证完全收敛

例子：网页分类

特征向量：词袋的生成向量

baseline：训练一个基于特征向量的分类器

如何提高预测准确率？

每个节点有一个代表邻居标签的向量，区分出度与入度

训练两个分类器：

一个分类器只考虑节点自身属性

一个分类器综合考虑自身属性与邻居标签

迭代。。。

应用： fake reviewer 或 review detection 虚假评论检测

行为分析：自有特征？？（individual features），地理位置，登陆时间，session历史

语言分析：使用最高级，许多自我参考，拼写错误，协议性的词

但以上，有较容易仿造

难以仿造的是：关系结构（评论者，评论与商店的关系）

输入：排序后的二分图，节点：用户及商品边：评分，-1到1

输出：给虚假评价的用户集

基础思想：用户，商品，评论有原有的评分

用户分值更新：

商品分值更新：

评论的可靠性更新：

初始化，每个分数都为好与坏的最高分

迭代1：更新商品的分数

更新评论的可靠度

更新用户分数

收敛后：

Rev2 能确保收敛时间性能为编书的线性

置信传播

是一个动态的问题

当达到一致后，计算最终的置信度

信息传输的基础

每个节点仅能给他的邻居传播信息

因此，每个节点仅能接收邻居的信息，更新并传播

第三个节点仅能接收前两个，后三个，以及自己的信息

节点接收树中所有分支的信息

但是，当回路存在时，上述方法是会错误的

Loopy BP algorithm

i发送给j的消息，取决于i从邻居k收到的

定义：

label-label potential matrix：两个相邻节点间的依赖关系矩阵。（i,j）表示当节点j的邻居i为状态为yi时处于状态yj的概率

prior belief：节点i在状态yi的概率

mij（yj）：i对j在状态yj的估计

L：状态集

Loopy BP algorithm

初始化所有信息为1

对每个节点重复：

收敛后：

若闭环存在，信息不再独立

但是我们可以跑BP，一种局部的算法，闭环对其无影响

置信度传播应用：在线拍卖欺诈

考虑不充足的解决方案：仅考虑自身信息，如用户属性等

反馈机制

每个用户有一个信用分数，由他人打分

通常，欺诈用户不会相互打分

通常，构建近似的二分图：正常的，欺诈的

三类：绿色——诚信，黄色——看似正常，红色——欺诈

使用置信传播构建近似二分图

来自为知笔记(Wiz)

【推广】免费学中医，健康全家人

原文地址：https://www.cnblogs.com/combfish/p/12271480.html