数据挖掘与机器学习的相关理解

加州理工学院公开课：机器学习与数据挖掘：http://open.163.com/special/opencourse/learningfromdata.html

机器学习：那些具体的算法，得到精确模型，统行学家又称为统计学习

数据挖掘：数据库，数据清洗，数据可视化

深度学习：在图像，语音，富媒体取得较好表现，是机器学习的一个分支，伴随着大量的计算

学习方法：参考http://www.dataguru.cn/thread-316889-1-1.html

1、监督式学习：

　　输入数据被称为“训练数据”，每组训练数据有一个明确的标识或结果。如西瓜的品质，好吃，一般，不好吃。通过训练建立预测模型，通过预测结果与“训练数据”的实际结果比较，不断的调整预测模型，直到预测结果达到一个预期的准确率。应用场景如分类和回归等问题。常见算法有逻辑回归(Logistic Regression)和反向传递神经网络(Back Propagation Neural Network)。

2、半监督式学习：

　　输入数据部分被标识，部分没被标识，这种学习模型可以用来预测，但是模型首先需要学习数据的内在结构以便合理的组织数据进行预测。先对未标识的数据进行建模，然后再在这个基础上再对标识的数据进行预测。如图论推理算法(Graph Inference)或者拉普拉斯支持向量机(Laplacian SVM.)等。

3、非监督式学习：

　　数据并不被特别标识，学习模型是为了推断出数据的一些内在结构。常见的应用场景包括关联规则的学习以及聚类等。常见算法包括Apriori算法以及k-Means算法。

4、强化学习：

　　http://www.dataguru.cn/thread-316889-1-1.html

　　在企业数据应用的场景下，人们最常用的可能就是监督式学习和非监督式学习的模型。在图像识别等领域，由于存在大量的非标识的数据和少量的可标识数据，目前半监督式学习是一个很热的话题。而强化学习更多的应用在机器人控制及其他需要进行系统控制的领域。