机器学习2——学习路线规划

一、学习路线

1）理论基础：微积分、线性代数、概论论与数理统计、典型算法；

2）编程语言、工具和环境；

3）基本工作流程；

=====================================================

二、理论基础

2.1微积分

微分的计算及其几何、物理含义，是机器学习中大多数算法的求解过程的核心。比如算法中运用到梯度下降法、牛顿法等。如果对其几何意义有充分的理解，就能理解“梯度下降是用平面来逼近局部，

牛顿法是用曲面逼近局部”，能够更好地理解运用这样的方法。凸优化和条件最优化的相关知识在算法中的应用随处可见，如果能有系统的学习将使得你对算法的认识达到一个新高度。

2.2线性代数

大多数机器学习的算法要应用起来，依赖于高效的计算，这种场景下，程序员GG们习惯的多层for循环通常就行不通了，而大多数的循环操作可转化成矩阵之间的乘法运算，这就和线性代数有莫大的

关系了向量的内积运算更是随处可见。矩阵乘法与分解在机器学习的主成分分析（PCA）和奇异值分解（SVD）等部分呈现刷屏状地出现。

2.3概率与统计

从广义来说，机器学习在做的很多事情，和统计层面数据分析和发掘隐藏的模式，是非常类似的。极大似然思想、贝叶斯模型是理论基础，朴素贝叶斯(Na?ve Bayes )、语言模型(N-gram)、隐马尔

科夫（HMM）、隐变量混合概率模型是他们的高级形态。常见分布如高斯分布是混合高斯模型(GMM)等的基础。

2.4典型算法

绝大多数问题用典型机器学习的算法都能解决，粗略地列举一下这些方法如下：

处理分类问题的常用算法包括：逻辑回归(工业界最常用)，支持向量机，随机森林，朴素贝叶斯(NLP中常用)，深度神经网络(视频、图片、语音等多媒体数据中使用)。

处理回归问题的常用算法包括：线性回归，普通最小二乘回归（Ordinary Least Squares Regression），逐步回归（Stepwise Regression），多元自适应回归样条（Multivariate Adaptive Regression

Splines）处理聚类问题的常用算法包括：K均值（K-means），基于密度聚类，LDA等等。

降维的常用算法包括：主成分分析（PCA）,奇异值分解（SVD）等。推荐系统的常用算法：协同过滤算法模型融合(model ensemble)和提升(boosting)的算法包括：bagging，adaboost，GBDT，GBRT

其他很重要的算法包括：EM算法等等。

我们多插一句，机器学习里所说的“算法”与程序员所说的“数据结构与算法分析”里的“算法”略有区别。

前者更关注结果数据的召回率、精确度、准确性等方面，

后者更关注执行过程的时间复杂度、空间复杂度等方面。当然，实际机器学习问题中，对效率和资源占用的考量是不可或缺的。

=====================================================

三、环境准备

3.1 python环境搭建和各类工具包介绍

python有着全品类的数据科学工具，从数据获取、数据清洗到整合各种算法都做得非常全面。

scrapy：网页爬虫，数据挖掘；

pandas：模拟R，进行数据浏览与预处理；

numpy：数组运算；

scipy：高效的科学计算；

matplotlib：非常方便的数据可视化工具。

scikit-learn：远近闻名的机器学习 package。未必是最高效的，但是接口真心封装得好，几乎所有的机器学习算法输入输出部分格式都一致。而它的支持文档甚至可以直接当做教程来学习，非常用心。对于不是非常高纬度、高量级的数据，scikit-learn胜任得非常好(有兴趣可以看看sklearn的源码，也很有意思)。

libsvm：高效率的svm模型实现(了解一下很有好处，libsvm的系数数据输入格式，在各处都非常常见)

keras/TensorFlow：对深度学习感兴趣的同学，也能很方便地搭建自己的神经网络了。

nltk：自然语言处理的相关功能做得非常全面，有典型语料库，而且上手也非常容易。交互式环境：

ipython notebook：能直接打通数据到结果的通道，方便至极。强力推荐。

3.2 操作系统建议

推荐linux或mac，安装软件和配置环境更加便捷；

=====================================================

四、工作流程

以上我们基本具备了机器学习的必要条件，剩下的就是怎么运用它们去做一个完整的机器学习项目。其工作流程如下：

（1）抽象成数学问题

明确问题是进行机器学习的第一步。机器学习的训练过程通常都是一件非常耗时的事情，胡乱尝试时间成本是非常高的。这里的抽象成数学问题，指的我们明确我们可以获得什么样的数据，目标是一个分类还是回归或者是聚类的问题，如果都不是的话，如果划归为其中的某类问题。

（2）获取数据

数据决定了机器学习结果的上限，而算法只是尽可能逼近这个上限。数据要有代表性，否则必然会过拟合。而且对于分类问题，数据偏斜不能过于严重，不同类别的数据数量不要有数个数量级的差距。还要对数据的量级有一个评估，多少个样本，多少个特征，可以估算出其对内存的消耗程度，判断训练过程中内存是否能够放得下。如果放不下就得考虑改进算法或者使用一些降维的技巧了。如果数据量实在太大，那就要考虑分布式了。

（3）特征预处理与特征选择

良好的数据要能够提取出良好的特征才能真正发挥效力。特征预处理、数据清洗是很关键的步骤，往往能够使得算法的效果和性能得到显著提高。归一化、离散化、因子化、缺失值处理、去除共线性等，数据挖掘过程中很多时间就花在它们上面。这些工作简单可复制，收益稳定可预期，是机器学习的基础必备步骤。筛选出显著特征、摒弃非显著特征，需要机器学习工程师反复理解业务。这对很多结果有决定性的影响。特征选择好了，非常简单的算法也能得出良好、稳定的结果。这需要运用特征有效性分析的相关技术，如相关系数、卡方检验、平均互信息、条件熵、后验概率、逻辑回归权重等方法。

（4）训练模型与调优

直到这一步才用到我们上面说的算法进行训练。现在很多算法都能够封装成黑盒供人使用。但是真正考验水平的是调整这些算法的（超）参数，使得结果变得更加优良。这需要我们对算法的原理有深入的理解。理解越深入，就越能发现问题的症结，提出良好的调优方案。

（5）模型诊断

如何确定模型调优的方向与思路呢？这就需要对模型进行诊断的技术。过拟合、欠拟合判断是模型诊断中至关重要的一步。常见的方法如交叉验证，绘制学习曲线等。过拟合的基本调优思路是增加数据量，降低模型复杂度。欠拟合的基本调优思路是提高特征数量和质量，增加模型复杂度。误差分析也是机器学习至关重要的步骤。通过观察误差样本，全面分析误差产生误差的原因:是参数的问题还是算法选择的问题，是特征的问题还是数据本身的问题…… 诊断后的模型需要进行调优，调优后的新模型需要重新进行诊断，这是一个反复迭代不断逼近的过程，需要不断地尝试，进而达到最优状态。

（6）模型融合

一般来说，模型融合后都能使得效果有一定提升。而且效果很好。工程上，主要提升算法准确度的方法是分别在模型的前端（特征清洗和预处理，不同的采样模式）与后端（模型融合）上下功夫。因为他们比较标准可复制，效果比较稳定。而直接调参的工作不会很多，毕竟大量数据训练起来太慢了，而且效果难以保证。

（7）上线运行

这一部分内容主要跟工程实现的相关性比较大。工程上是结果导向，模型在线上运行的效果直接决定模型的成败。不单纯包括其准确程度、误差等情况，还包括其运行的速度(时间复杂度)、资源消耗程度（空间复杂度）、稳定性是否可接受。这些工作流程主要是工程实践上总结出的一些经验。并不是每个项目都包含完整的一个流程。这里的部分只是一个指导性的说明，只有大家自己多实践，多积累项目经验，才会有自己更深刻的认识。

=====================================================

相关链接

机器学习最佳学习路线：https://blog.csdn.net/ufv59to8/article/details/80970586

机器学习扫盲与学习路线：https://www.jianshu.com/p/9fa6fca386c2

机器学习入门方法与学习路径：https://wenku.baidu.com/view/43d09c0e5bcfa1c7aa00b52acfc789eb162d9e41.html

从0到机器学习工程师 —— 学习路线及资料汇总： https://ask.julyedu.com/question/85365