关于机器学习的思考

机器学习可分为四大类

1. 监督学习
机器训练数据拥有标记或者答案。

2. 非监督学习
机器训练数据没有任何标记或者答案

3. 半监督学习
一部分的数据有标记或者答案，另一部分数据没有,各种原因产生的标记缺失

4. 增强学习
根据周围环境的情况，采取行动，根据采取行动的结果，学习行动方式

机器学习中的回归和分类问题

1.回归问题的应用场景

回归问题通常是用来预测一个值，如预测房价、未来的天气情况等等，例如一个产品的实际价格为500元，通过回归分析预测值为499元，我们认为这是一个比较好的回归分析。一个比较常见的回归算法是线性回归算法（LR）。另外，回归分析用在神经网络上，其最上层是不需要加上softmax函数的，而是直接对前一层累加即可。回归是对真实值的一种逼近预测。

2.分类问题的应用场景

分类问题是用于将事物打上一个标签，通常结果为离散值。例如判断一幅图片上的动物是一只猫还是一只狗，分类通常是建立在回归之上，分类的最后一层通常要使用softmax函数进行判断其所属类别。分类并没有逼近的概念，最终正确结果只有一个，错误的就是错误的，不会有相近的概念。最常见的分类方法是逻辑回归，或者叫逻辑分类。

如何选择机器学习算法？

【KNN，线性回归，多项式回归，逻辑回归，模型正则化，PCA，SVM，决策树，随机森林，集成学习，模型选择，模型调试】

1. 奥卡姆的剃刀

简单的就是好的

2. 没有免费午餐定理

1）可以严格的数学推导出任意两个算法，他们的期望性能是相同的。
2）脱离具体问题，讨论哪个算法好是没有意义的。
3）不同算法对比试验是有必要的。