Isolate randomforest检测异常点的非监督方法

由于异常数据的两个特征(少且不同: few and different)

  1. 异常数据只占很少量;
  2. 异常数据特征值和正常数据差别很大。

iTree的构成过程如下:

l    随机选择一个属性Attr;

l    随机选择该属性的一个值Value;

l    根据Attr对每条记录进行分类,把Attr小于Value的记录放在左女儿,把大于等于Value的记录放在右孩子;

l    然后递归的构造左女儿和右女儿,直到满足以下条件:

l      传入的数据集只有一条记录或者多条一样的记录;

l      树的高度达到了限定高度;

  iTree构建好了后,就可以对数据进行预测啦,预测的过程就是把测试记录在iTree上走一下,看测试记录落在哪个叶子节点。iTree能有效检测异常的假设是:异常点一般都是非常稀有的,在iTree中会很快被划分到叶子节点,因此可以用叶子节点到根节点的路径h(x)长度来判断一条记录x是否是异常点;

 

原文地址:https://www.cnblogs.com/wuxiangli/p/7283858.html