mahout 随机森林RF算法

在随机森林中的随机性体现在：1.训练数据的随机性 2. 选择分割属性的随机性

能解决分类与回归问题，并且都有很好的估计表现

1.生成数据说明文件

mahout describe -p input.csv -f input.info-d2 I 3 N I 5 N I 3 C L（执行describe生成数据的说明文件）

2.训练模型

mahout buildforest -d input.csv -ds input.info -sl 5 -p -t 5 -o forest_result(生成随机森林模型结果)

3.测试

Mahout testforest -i input.csv -ds input.info -m forest_result -a -o predictions

-a 运行后在命令行界面可以看到分析结果，包括准确率等信息

-d：数据路径

-ds：数据集

-sl：选取每个子节点应该具备的训练变量个数，对于regresstion问题默认为全部变量的三分之一

-nc：可选的，树不互补

-ms：可选的，如果分支数据大小小于此值（默认为2），则树不分离。

-mp：可选的，如果分支数据的方差的比例小于这个值，则树不分离。（In the case of a regression problem, this value is used. The default

is 1/1000(0.001).）

-sd：可选的，种子值，用来初始化随机数发生器。

-p：使用部分数据实现

-t：设置共多少棵树

-o：输出路径，包含决策森林模型