机器学习的基本概念

基本的概念有:
     训练集,测试集,特征值,标签,监督学习,非监督学习,半监督学习,分类,回归
     (1)训练集(trainning set)
             用来进行训练,产生模型或者算法的数据集合(data)
     (2)测试集(testing set)
             用来专门测试已经训练好的模型或者算法的数据集合
     (3)特征向量(特征值 features)
             属性的集合,通常用一个向量来表示,附属于每一个实例之上。举个例子,我们如何判断一个西瓜的好坏?当然是通过西瓜的一些特征去判断:瓜的拍打声音,瓜的颜色,瓜的根蒂形状等。而这些西瓜的特征的具体的值就组合成一个个的特征向量,这一点我个人感觉和面向对象的编程思想可以对应上,用java语言来描述,瓜是一个类,瓜的拍打声音、颜色、根蒂形状都可以作为一个这个类的属性,在代码中就是一个个的字段,而具体的某一个瓜则可以类似的看成一个特征向量。
     (4)标签(lables)
             实例类别的一个标记,还是上面的选瓜的例子,挑选的瓜的好与坏,这两种结果,就可以当做两个标签来看。而从特征到标签的映射过程,就是机器的
             训练过程。这里还涉及到另外两个定义,一个是正例,一个是反例,很好理解,也就是一件事情的两面性,对的错的,好的坏的等。
     (5)监督学习
             在监督学习的过程中,训练集都是有标记的
     (6)非监督学习
             在非监督学习中,训练集是没有标记的,比如给的训练集中,没有对应的实例的结果
     (7)半监督学习
             在半监督学习中,训练集中,有的实例是有标记的,有的实例是没有标记的
     (8)分类
             即训练集中,实例对应的标记,不是数值型的,而是别的类型的数据,比如说布尔类型的等等。
     (9)回归
             在训练集当中,实例对应的标记是数字型的,连续的数字型标记。
 
一张图理解机器学习的过程:
原文地址:https://www.cnblogs.com/getMyCodes/p/7256345.html