1-预测分析类核心算法简介

目前，工业界比较高效、常用的预测分析类算法主要分为两种：

1.惩罚线性回归　　2.集成方法（ensemble method）

面对绝大多数预测问题，上述两种方法都能达到最优或者接近最优的性能。比如boosted decision trees、RF、Bagged decision trees属于集成方法，而LR属于比较接近惩罚回归的算法。

一般情况下：

1.惩罚回归算法更适用于数据规模小而特征较多的问题；

2.集成方法用更适用于数据量较大，可以充分学习的数据集。

在预测模型的构建过程中，最消耗时间的一般是数据处理与特征工程，大概占到开发的80%-90%之间。

下面介绍两种算法的基本概念:

1)惩罚线性回归：为了平衡最小二乘的欠拟合与过拟合的函数逼近。

2）集成方法：构建多个不同的预测模型，然后将其输出做某种组合作为最终输出，如取均值（减小方差）、bagging（随机取样，基于随机数据子集进行训练，也就是投票）等。

至于两种算法的应用和选择。惩罚线性回归的优点就是训练速度快，初期可以用来进行特征选择，尤其是在处理基因选择这种具有上万维特征的问题，该方法是辅助特征工程的一个重要工具；在数据充足的情况下，集成方法能提供更好的性能。

一般步骤：选择一组特征，开始训练机器学习算法，得到一个模型并对它的性能进行评测。根据评测结果对特征集进行调整，后者选择另一种目标函数。