机器学习谚语

  机器学习的一个假设就是学习的默认建模使用的训练数据和真实/测试数据分布是一致的。所以如果数据分布不一致,是无法使用一个模型来进行拟合的。

  数据科学家最重要的一个能力就是能够“定义问题”。

  如何掌握一个模型/算法?在研究的过程要念念不忘几个点:模型是什么,损失函数是什么,都有哪些超参数影响模型。模型,是能够最大程度满足损失函数/目标函数的函数;

  举个例子,在GBDT中,损失函数是指数损失函数(log-loss),模型则是一个有多个CART树组成的函数:

$F_m(x_i) = F_{m-1}(x_i) + sum_{j-1}^{T_m} γ_{mj}*I(x_i ∈R_mj)$

  这个函数(模型))构建和组成选取很重要,不同的模型比如决策树,SVM决定了数据的分布,不同的分布,损失函数的优化效果是不一样的。所以我们要尝试不同的模型来和训练数据拟合,看看哪一个能够是的损失函数最优化。

原文地址:https://www.cnblogs.com/xiashiwendao/p/11615343.html