机器学习谚语

　　机器学习的一个假设就是学习的默认建模使用的训练数据和真实/测试数据分布是一致的。所以如果数据分布不一致，是无法使用一个模型来进行拟合的。

　　数据科学家最重要的一个能力就是能够“定义问题”。

　　如何掌握一个模型/算法？在研究的过程要念念不忘几个点：模型是什么，损失函数是什么，都有哪些超参数影响模型。模型，是能够最大程度满足损失函数/目标函数的函数；

　　举个例子，在GBDT中，损失函数是指数损失函数（log-loss），模型则是一个有多个CART树组成的函数：

$F_m(x_i) = F_{m-1}(x_i) + sum_{j-1}^{T_m} γ_{mj}*I(x_i ∈R_mj)$

　　这个函数（模型））构建和组成选取很重要，不同的模型比如决策树，SVM决定了数据的分布，不同的分布，损失函数的优化效果是不一样的。所以我们要尝试不同的模型来和训练数据拟合，看看哪一个能够是的损失函数最优化。