机器学习基础

1. 机器学习定义

机器学习是一门能够让系统从数据中学习的计算机科学。

2. 机器学习在哪些问题上表现突出？

机器学习非常有利于：不存在已知算法解决方案的复杂问题，需要大量手动调整或是规则列表超长的问题，创建可以适用环境波动的系统，以及帮助人类学习（比如数据挖掘）。

3. 什么是被标记的训练数据集？

被标记的训练集是指包含每个实例所期望的解决方案的训练集。

4. 最常见的监督式学习任务是什么？

最常见的两个监督式学习任务是分类和回归

5. 模型参数与学习算法的超参数的区别？

模型参数有一个或者多个，这些参数决定了模型对新的给定实例会做出怎样的预测（比如，线性模型的斜率）。学习算法试图找到这些参数的最佳值，使得该模型能够很好的泛化至新的实例。超参数是学习算法本身的参数，不是模型的参数（比如，要应用的正则化数量）。

6. 什么是测试集，为什么要使用测试集？

在模型启动至生产环境之前，使用测试集来估算模型在新实例上的泛化能力。

7. 什么是交叉验证？它为什么比验证集更好？

通过交叉验证技术，可以不需要单独的验证集实现模型比较（用于模型选择和调整超参数）。这节省了宝贵的训练数据。

8. 如果使用测试集调整超参数会出现什么问题？

如果使用测试集来调整超参数，会有过度拟合测试集的风险，最后测量的泛化误差会过于乐观（最后启动的模型性能比预期对的要差）。

【推广】免费学中医，健康全家人

原文地址：https://www.cnblogs.com/Hijack-you/p/11325254.html