监督学习和非监督学习

一.什么是机器学习：

机器学习的思路：我们可以利用一些训练数据（已经做过的题），使机器能够利用它们（解题方法）分析未知数据（考场的题目）。就像考试前老师给我们预测考试会考什么一样。

简单的一句话：机器学习就是让机器从大量的数据集中学习，进而得到一个更加符合现实规律的模型，通过对模型的使用使得机器比以往表现的更好。

从字面意思上看，监督学习和非监督学习：变量为’监督’‘’

监督学习

定义：根据已有的数据集，知道输入和输出结果之间的关系。根据这种已知的关系，训练得到一个最优的模型。也就是说，在监督学习中训练数据既有特征(feature)又有标签(label)，通过训练，让机器可以自己找到特征和标签之间的联系，在面对只有特征没有标签的数据时，可以判断出标签。

知道A=1，B=2，C=3，来进行D=？的过程。通过调整参数来让机器运行在一个范围内，类似代码中的循环判断，假如是一个简单代码的话，我先传入一个字典集，按照ABCD....UVWXYZ的顺序，提取它的index,value就可以推出D的值。

如果是一个机器学习的话，先告诉A=1，B=2，C=3，通过找ABC的特征来进行推断，我认为A=1,B=2，C=3的原因是根据字母的排序，那么我应该告诉机器这个，教他方法然后让他自己来进行。也就是给他一个方法。

通俗一点，可以把机器学习理解为我们教机器如何做事情。

监督学习的主要分类：回归(Regression）、分类（Classification)

回归问题变量是连续的，例如人口，收入，房子面积等

分类是针对离散型的，输出的结果是有限的。例如是否，对错，进退等

也就是知道答案的情况下，给一个模型出来，让所有的数据都能在这个模型中运算，前提是训练集具有全面性，或者说是针对某一方面有一定的适应能力。如果训练集的数据不完善，就需要使用一定的方法，例如引进代价函数的概念等....

监督的理解就是我要看着它，或者说按时检查它。如果我的训练模型只有1~500的范围，但是传入了一个1000的，那么就需要我来再告诉它遇到1000的时候应该怎么办，或者说给他设定一个方法，例如x1>500，return 0。这样的

非监督学习

百科：现实生活中常常会有这样的问题：缺乏足够的先验知识，因此难以人工标注类别或进行人工类别标注的成本太高。很自然地，我们希望计算机能代我们完成这些工作，或至少提供一些帮助。根据类别未知(没有被标记)的训练样本解决模式识别中的各种问题，称之为无监督学习。

就是我们不告诉机器怎么去做，不给他方法，给他一个简单的思路。例如：判断是不是猫---->我给机器一个最先的底层函数（一个完善的，具有一定CMS基础的），先让他把1000个照片分成M份，然后告诉他哪一份是猫，哪一份是你分类错了。然后我告诉他？？？？？

好像也不行我认为这需要一个循环嵌套的一个系统。

类似这样吧，一发而动全身。

当这种基础很完善的时候，也许可以进行非监督学习，我只需要评定结果好不好，让它自己的参数不停的修改，直到我满意。

网上的说明：

无监督学习的方法分为两大类：

(1) 一类为基于概率密度函数估计的直接方法：指设法找到各类别在特征空间的分布参数，再进行分类。

(2) 另一类是称为基于样本间相似性度量的简洁聚类方法：其原理是设法定出不同类别的核心或初始内核，然后依据样本与核心之间的相似性度量将样本聚集成不同的类别。

利用聚类结果，可以提取数据集中隐藏信息，对未来数据进行分类和预测。应用于数据挖掘，模式识别，图像处理等。

PCA和很多deep learning算法都属于无监督学习。

好像说白了就是监督学习底层不够完善，或者说运用的完善，一个人是没有手的，我给了一个机械手教它怎么喝水。

无监督学习就是人是完整的人，但是不知道怎么喝水，我只需要做个动作，让它自己领会。然后给一个评价，OK不OK。直到Ok了为止。

它先通过分类，把一些猫正确的分了出来，然后我说，嗯是对的，那些是错的，它先提高正确分类那部分的权重值，降低错误部分的权重。直到我认可为止。

第一个是簇分配，第二个是移动聚类中心。那么第二个移动聚类中心也是基于算法的。还是需要一个完善的人。

无监督学习常常被用于数据挖掘，用于在大量无标签数据中发现些什么。它的训练数据是无标签的，训练目标是能对观察值进行分类或区分等。例如无监督学习应该能在不给任何额外提示的情况下，仅依据所有“猫”的图片的特征，将“猫”的图片从大量的各种各样的图片中将区分出来。

无监督学习：

我给机器一个这样的图片，它先进行自己的分类，那么我假设它根据：边数，弧度，角的度这三种分类

按照边分：就是这样的

然后按照弧度分：

那么我最后给一个结论，例如我自己内心事先想的就是按照边来分。那么我告诉他第一张是对的，可以继续按照这个分，这个就是无监督学习。