某次使用随机森林的总结

首先这个模型的使用没有问题;
模型的评价也没有问题;

但是这个模型不能被工业化;

原因是数据本身有很大问题,典型的学术型数据;

问题如下:
1. 误踩油门是 刻意为之,因为每次基本都踩到底了,而实际驾驶过程中不会踩到底
2. 数据样本在 误踩油门 时加速踏板开度在100左右,而正常时刻加速踏板开度基本都很小,而实际驾驶过程中,正常驾驶时油门开度也会很大,不会一直很小
--实验数据和工业上的数据差别巨大

这样的数据造成的结果是:
1. 加速踏板开度重要性非常高,
2. 加速踏板开度基本就完全决定了label
3. 其他特征基本没用

在这种情况下,选择随机森林或许是个不错的选择,至少存在好于其他模型的可能性,
因为随机森林随机选择特征时,可能避开 加速踏板 开度这个重要特征,而关注到其他特征,使得其他特征起到作用;
// 这里有个小技巧,为了使得基学习器更多的避开 加速踏板 这个重要特征,可将 max_feature 设置的小一点,特别是特征较少时,增加避开的可能性
// 也可以树的棵树少一点,也是为了降低 以加速踏板为主要特征的基学习器 的投票个数

总结:
1. 数据要尽可能真实
2. 如果从数据或者模型看,某个特征在很大程度上决定了 label,而真实情况是这个特征根本不能决定 label,此时可选择 随机森林 模型,泛化能力可能会好于其他模型
// 特征较少时,试试这样:树的棵树小于特征个数
// 不一定能提升泛化能力,但是至少不会被虚假的评价指标所蒙蔽

原文地址:https://www.cnblogs.com/yanshw/p/14314442.html