机器学习——基础知识

###机器学习的基础概念

机器学习时一门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。它是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。

机器学习主要使用的学习方法是归纳，而不是演绎。
机器学习更多的使用归纳法，这也决定了它的结论并不是一种必然性推论，一般情况下我们可以通过一些方法提高机器学习的可靠性。
机器学习是一种让计算机利用数据而不是指令来进行各种工作的方法。“统计”思想将在你学习“机器学习”相关理念时无时无刻不伴随，相关而不是因果的概念是支撑机器学习工作的核心概念。

###机器学习的结构

从机器学习的定义出发，我们可以把机器学习分为两个部分，硬件部分——计算机，软件部分——学习系统。
这里我们可以把计算机类比为人脑的物质实体，学习系统类比为人的思维系统（学习是人的一种思维系统）。在当前社会的语境中，我们常说的机器学习通常指的是软件部分，即学习系统。

一个学习系统3个主要部分：环境信息，知识库和学习执行。

环境向系统的学习部分提供某些信息，学习部分利用这些信息修改知识库，以增进系统执行部分完成任务的效能，执行部分根据知识库完成任务，同时把获得的信息反馈给学习部分，进一步强化学习系统的能力。

对一个学习体统而言，质量高的环境信息（数据源）是高效机器学习系统的重要前提，知识库我们可以理解为各种各样的算法，它负责指导对数据进行处理，同时在学习过程中，有3个特性比较重要学习的复杂度，反馈改进能力及可理解性。

####学习系统的重要部件在机器学习中，有几个重要的组成部分：模型，参数和目标函数。

模型：通常是针对某一类问题的解题步骤，或者说针对某一类问题的算法。
区别概念：算法——算法（Algorithm）是指解题方案的准确而完整的描述，是一系列解决问题的清晰指令，算法代表着用系统的方法描述解决问题的策略机制。也就是说，能够对一定规范的输入，在有限时间内获得所要求的输出。
概括起来，模型侧重于框架，算法侧重于执行过程。

参数：是模型或算法中的输入及输出部分，比如简单的线性回归，给定x去输出y，其中x,y就是模型的参数。

目标函数：主要是解决模型如何选择最优参数的问题。
一般情况下，目标函数包含两个部分：
误差函数：告诉我们模型的拟合程度，常见的误差函数有平方误差，logistic误差函数等，
正则化项：对复杂模型进行惩罚，防止过拟合，常见的正则化项有L1正则化及L2正则化

此外，还有另外两个重要概念——偏差和方差。在现实中，我们能获取到的数据经常是有限的，所以我们用数据进行建模的结果会与真实世界的情况存在出入，这种出入的大小描述就是偏差。另外，在有限的数据中由于数据的随机性会影响模型整体的稳定性，这种稳定性的大小描述就是方差。

目标函数中误差函数鼓励我们的模型尽量去拟合训练数据，这样相对来说最后的模型会有比较少的偏差。而正则化项则鼓励更加简单的模型。因为当模型简单之后，有限数据拟合出来结果的随机性比较小，不容易过拟合，使得最后模型的预测更加稳定。

####机器学习重要过程在机器学习建模过程中，有个重要的步骤就是算法优化。

算法优化其实就是在优化目标函数，所以当我们在使用算法过程中，要着重理解解决问题算法中的目标函数及它的优化方法。

###机器学习的应用

到目前为止机器学习的应用已经十分广泛，其中包括：数据挖掘、计算机视觉、自然语言处理、语音识别等。

####数据挖掘

数据挖掘（Data mining）：一般是指从大量的数据中通过算法搜索隐藏于其中信息的过程。

数据挖掘过程中常用的一些分析方法包括：分类，聚类，估计，预测等

经典的数据挖掘算法包括：

C4.5：决策树的其中一种
K-means算法：是一种聚类算法。
SVM：支持向量机，广泛运用于统计分类以及回归分析中
Apriori ：关联规则，是一种布尔关联规则频繁项集的算法。
EM：最大期望值法。
pagerank：网页排名算法。
Adaboost:是一种迭代算法，同时也是集合分类器。
KNN:临近分类算法。
Naive Bayes：朴素贝叶斯（Naive Bayes）
Cart：分类回归树，决策树的一种

####计算机视觉

计算机视觉是研究如何使使机器进行图形识别的科学，主要包括两个部分图形处理和图形理解两个部分，其中大量涉及机器学习的内容。这个领域应用前景非常火热，同时也是研究的热门方向。随着机器学习的新领域深度学习的发展，大大促进了计算机图像识别的效果，因此未来计算机视觉界的发展前景不可估量。

####自然语言处理

自然语言处理研究的是能实现人与计算机之间用自然语言进行有效沟通的科学。实现人机间自然语言通信意味着要使计算机既能理解自然语言文本的意义，也能以自然语言文本来表达给定的意图、思想等。自然语言处理大体包括了自然语言理解和自然语言生成两个部分，其中也大量涉及机器学习，同时自然语言也是人工智能的热门方向。

####语音识别

语音识别研究的是人与机器之间进行语音沟通学科，其中涉及较多的自然语言处理技术,在此基础上还涉及到信号处理，模式识别以及信息论等，而机器学习在其中也扮演了重要的决策，同时也是机器学习的热门方向之一。

###机器学习的历史

大体上可分为4个时期：
第一阶段是在20世纪50年代中叶到60年代中叶，属于热烈时期。
第二阶段是在20世纪60年代中叶至70年代中叶，被称为机器学习的冷静时期。
第三阶段是从20世纪70年代中叶至80年代中叶，称为复兴时期。
机器学习的最新阶段始于1986年。

详细内容可参考：http://blog.csdn.net/u012328159/article/details/52462433

###机器学习的发展趋势

从2016年的AlphaGo打败围棋世界冠军李世石开始，机器学习的发展速度打破了人们的原有认知，原来大家普遍认为，机器要在围棋上战胜人类可能还需要20年，可就在2016年它就成为了历史。也因此AlphaGo背后的深度学习技术也被广为人知。

可以知道的是技术的演进速度是在加速进行的，我们要做的是参与其中或拭目以待。