随机森林 参数

一、优点:

1.引入了两个随机(样本随机、特征随机),所以不容易陷入过拟合。

2.由于树的组合,可以处理非线性数据。

3.训练结束后,模型可以给出feature的重要程度。

二、缺点

1.随机森林的决策树个数较多时,训练时间和空间会较大。

2.在某些噪音较大的样本集中,容易陷入过拟合。

三、框架参数

1. n_estimators:

弱学习器的最大迭代次数。一般来说,n_estimators太小,容易过拟合;太大,容易欠拟合。默认100

2.oob_score:

是否采用袋外样本来评估模型的好坏。默认识False。可以设置为True,因为袋外分数反应了一个模型拟合后的泛化能力。

3.criterion:

CART树做划分时对特征的评价标准。分类模型的CART分类树分为gini、信息增益,默认为gini。回归模型有均方误差mse、绝对值误差mae,默认mse。

四、决策树参数

1.max_features

最大特征数。默认“None”,划分时考虑所有的特征数。;如果是”log2”意味着划分时最多考虑log2(n_features)个特征;如果是”sqrt”或者”auto”意味着划分时最多考虑sqrt(n_features) 个特征。如果是整数,代表考虑的特征绝对数。如果是浮点数,代表考虑特征百分比,即考虑(百分比xN)取整后的特征数。其中N为样本总特征数。

一般的,max_features 值越大,模型学习能学习到的信息越多,越容易过拟合。

2.max_depth

决策树最大深度。默认是决策树在建立子树的时候不会限制子树的深度。常用的可以设置在10-100之间。值越大,决策树越复杂,越容易过拟合。

3.min_samples_split

内部节点再划分所需最小样本数。默认值是2.如果某节点的样本数少于这个值,就不会再尝试选择最优特征来进行划分。

4.max_leaf_nodes

最大叶子节点数。限制最大叶子节点数,可以防止过拟合。

只是学习笔记,非原创。
原文地址:https://www.cnblogs.com/cloris-Zhang/p/13386838.html