机器学习中强化学习与监督学习、无监督学习和强化学习的区别

监督学习(Supervised learning)

监督学习即具有特征(feature)和标签(label)的，即使数据是没有标签的，也可以通过学习特征和标签之间的关系，判断出标签--分类。

简而言之：提供数据，预测标签。比如对动物猫和狗图片进行预测，预测label为cat或者dog。

通过已有的一部分输入数据与输出数据之间的对应关系，生成一个函数，将输入映射到合适的输出，例如分类。

e.g. 分类和回归问题

无监督学习（Unsupervised learning）

无监督学习即只有特征，没有标签。没有标签的训练数据集中，通过数据之间的内在联系和相似性将他们分成若干类--聚类。根据数据本身的特征，从数据中根据某种度量学习出一些特征。

e.g. 比如一个人没有见过恐龙和鲨鱼，如果给他看了大量的恐龙和鲨鱼，虽然他没有恐龙和鲨鱼的概念，但是他能够观察出每个物种的共性和两个物种之间的区别，并对这两种动物予以区分。

简而言之：给出数据，寻找隐藏的关系。

半监督学习（semi-supervised learning）：

半监督学习使用的数据，一部分是标记过的，而大部分是没有标记的，和监督学习相比较，半监督学习的成本比较低，但是又能达到较高的准确度。即综合利用有类标的和没有类别标记的数据，来生成合适的分类函数。

强化学习（Reinforcement learning）

强化学习与半监督学习类似，均使用未标记的数据，但是强化学习通过算法学习是否距离目标越来越近，我理解为激励与惩罚函数。类似生活中，女朋友不断调教直男友变成暖男。

区别：

（1）监督学习有反馈，无监督学习无反馈，强化学习是执行多步之后才反馈。

（2）强化学习的目标与监督学习的目标不一样，即强化学习看重的额时行为序列下的长期收益，而监督学习往往关注的是和标签或已知输出的误差。

（3）强化学习的奖惩是没有正确或错误之分的，而监督学习标签就是正确的，并且强化学习是一个学习+决策的过程，有和环境交互的能力（交互的结果以惩罚的形式返回），而监督学习不具备。

原文连接：https://www.cnblogs.com/wzw0625/p/11491273.html

版权属于原作者，此处只是学习记录作用。