随机森林参数

一、优点：

1.引入了两个随机（样本随机、特征随机），所以不容易陷入过拟合。

2.由于树的组合，可以处理非线性数据。

3.训练结束后，模型可以给出feature的重要程度。

二、缺点

1.随机森林的决策树个数较多时，训练时间和空间会较大。

2.在某些噪音较大的样本集中，容易陷入过拟合。

三、框架参数

1. n_estimators:

弱学习器的最大迭代次数。一般来说，n_estimators太小，容易过拟合；太大，容易欠拟合。默认100

2.oob_score:

是否采用袋外样本来评估模型的好坏。默认识False。可以设置为True，因为袋外分数反应了一个模型拟合后的泛化能力。

3.criterion:

CART树做划分时对特征的评价标准。分类模型的CART分类树分为gini、信息增益，默认为gini。回归模型有均方误差mse、绝对值误差mae，默认mse。

四、决策树参数

1.max_features

最大特征数。默认“None”，划分时考虑所有的特征数。；如果是”log2”意味着划分时最多考虑log2(n_features)个特征；如果是”sqrt”或者”auto”意味着划分时最多考虑sqrt(n_features) 个特征。如果是整数，代表考虑的特征绝对数。如果是浮点数，代表考虑特征百分比，即考虑（百分比xN）取整后的特征数。其中N为样本总特征数。

一般的，max_features 值越大，模型学习能学习到的信息越多，越容易过拟合。

2.max_depth

决策树最大深度。默认是决策树在建立子树的时候不会限制子树的深度。常用的可以设置在10-100之间。值越大，决策树越复杂，越容易过拟合。

3.min_samples_split

内部节点再划分所需最小样本数。默认值是2.如果某节点的样本数少于这个值，就不会再尝试选择最优特征来进行划分。

4.max_leaf_nodes

最大叶子节点数。限制最大叶子节点数，可以防止过拟合。

只是学习笔记，非原创。

随机森林 参数

随机森林参数