机器学习思考

什么是学习？

　　学习是一个过程，或者手段，让人或者机器有一种能力

　什么能力呢？人从小到大会学会哪些能力？

　　　分类：给一个东西，能知道属于什么类别，分类(回归)

　　　　　　怎么学会的：会学习满足哪些特征，就是什么类别，

　　　　　　属于有监督学习，对于每个模型，是训练出最优的参数，需要输入数据的特征和类别

　　　　　　　　有很多种模型：包括神经网络也是一种模型，包含很多层的神经元，每个神经元是一个函数，包含一些参数；

　　　判断两个事物是否相似：聚类

　　　　　　怎么学会的：两个东西的特征比较相似，就可以认为这两个比较像，这里并不关心这两个东西属于哪个类别，

　　　　　　这个可以用作发现一些细分类别：比如同样是人，根据生理上的区别可以分为男人和女人

　　　　　　属于无监督学习：只需要输入数据的特征，效果是看聚类的是否类内部紧耦合，类间距离尽量大

　　　　　　典型的可以用做关联规则的识别(apriori模型)

　　　　　　普通的有kmeans模型

　　　什么事情该做什么不该做：可以让自己开心，有成就感，安全感，或者能满足某一需求的事情，就是该做的，相反就是不该做的，增强学习

　　　　　　怎么学会的：每次摔倒都会疼，那么就会尽量避免摔倒，每次成绩好别人就会夸赞，那么就努力学习

　　　　　　也是一种有监督学习，但是不是输入类别，而是上下文下行为和与之对应的正负反馈，这样机器可以把结果尽量引导到正向；

　　预测：某个事情未来发生的可能性，基于timeline的

能力-》学习方式-》模型：

能力：机器或者人具有的能力：包括：分类，聚类，正负反馈，预测

学习方式：有监督，无监督，强化学习(使用回报函数的学习)，深度学习(使用深度神经网络的学习，深度学习也分有监督无监督)等

模型：神经网络和其他；

模型，策略和算法的关系：

模型：就是函数，能输入input，产出output，但是有很多种模型，同一种模型也有不同参数，所以这些可能的模型组成模型空间

策略：就是如何评价一个具体的模型好或者不好，一般就是损失函数的定义

算法：选定一种模型，设定初始参数，然后根据策略(损失函数的最优化)，不断迭代和收敛，得到模型的具体的参数

当然机器学习先前还要清洗数据，抽取特征，训练好模型之后要交叉验证，还要用小流量的实际数据验证

机器学习的过程，本质上就是一个迭代和收敛的过程，人也是一样，刚开始咿呀学语，不断地说不断地说，最终学会了说话！

人工神经网络(ann) 分为

　　浅层神经网络(snn,shallow neural network）

　　　　只含有一层隐层节点的浅层模型。起源于上世纪五、六十年代，当时叫感知机（perceptron），拥有输入层、输出层和一个隐含层。

　　　　利用BP算法可以让一个人工神经网络模型从大量训练样本中学习统计规律，从而对未知事件做预测。

　　　　20世纪80年代末期，用于人工神经网络的反向传播算法（也叫Back Propagation算法或者BP算法）的发明，给机器学习带来了希望，掀起了基于统计模型的机器学习热潮。

　　深度神经网络(dnn) 一种泛称，相对于浅层神经网络，包含多个隐层

　　　　cnn：卷积神经网络，应用到图像识别，新的网络结构中最著名的就是CNN，它解决了传统较深的网络参数太多，很难训练的问题，使用了“局部感受野”和“权植共享”的概念，大大减少了网络参数的数量。关键是这种结构确实很符合视觉类任务在人脑上的工作原理。

　　　　rnn：循环神经网络，主要是时间上，语音识别

　　　　　　lstm：长短时记忆单元

　　　　　　ResNet

　　　　参考：http://blog.csdn.net/lk7688535/article/details/52367852

　　　　降解了cnn，rnn和lstm的关系

深度学习是一种学习方式，指的是采用深度模型进行学习，不是模型。多层神经网络是一种模型。

所谓深度学习就是利用深度神经网络来进行的学习，可以用作分类，回归，聚类等能力的学习，是一种学习方式；

2006年，加拿大多伦多大学教授、机器学习领域的泰斗Geoffrey Hinton和他的学生RuslanSalakhutdinov在《科学》上发表了一篇文章，开启了深度学习在学术界和工业界的浪潮。

这篇文章有两个主要观点：

　　1）多隐层的人工神经网络具有优异的特征学习能力，学习得到的特征对数据有更本质的刻画，从而有利于可视化或分类；

　　2）深度神经网络在训练上的难度，可以通过“逐层初始化”（layer-wise pre-training）来有效克服，在这篇文章中，逐层初始化是通过无监督学习实现的。

深度学习的实质，是通过构建具有很多隐层的机器学习模型和海量的训练数据，来学习更有用的特征，从而最终提升分类或预测的准确性。

因此，“深度模型”是手段，“特征学习”是目的。

区别于传统的浅层学习，深度学习的不同在于：　

　　1）强调了模型结构的深度，通常有5层、6层，甚至10多层的隐层节点；

　　2）明确突出了特征学习的重要性，也就是说，通过逐层特征变换，将样本在原空间的特征表示变换到一个新特征空间，从而使分类或预测更加容易。与人工规则构造特征的方法相比，利用大数据来学习特征，更能够刻画数据的丰富内在信息。

用一个多层神经网络，来拟合一个非线性函数，参数通过多次迭代不断得到优化；