监督学习

监督学习 (Supervised Learning)

    "right answers" given (监督学习的特点是:给定“正确答案”)

    In supervised learning, we are given a data set and already know what our correct output should look like, having the idea that there is a relationship between the input and the output.

    在有监督的学习中,我们得到一个数据集,并且已经知道我们的正确输出应该是什么样的,并且认为输入和输出之间存在关系。

    Supervised learning problems are categorized into "regression" and "classification" problems. In a regression problem, we are trying to predict results within a continuous output, meaning that we are trying to map input variables to some continuous function. In a classification problem, we are instead trying to predict results in a discrete output. In other words, we are trying to map input variables into discrete categories.

    监督学习问题分为“回归”和“分类”问题。 在回归问题中,我们试图在连续输出中预测结果,这意味着我们正在尝试将输入变量映射到某个连续函数。 在分类问题中,我们试图在离散输出中预测结果。 换句话说,我们试图将输入变量映射到离散类别。

举例帮助理解

例子 1:房价预测

    给出多组“房子大小”和其对应的“房子价格”让计算机学习,这里的“房子的价格”就是给定的“正确答案”。比如

房子大小 房子的价格
489 101
512 148
890 249
1470 308
1803

    去预测一个给定“房子大小(1803)”的房子的“房子的价格”。(这也是一个回归问题:预测连续的输出值)

例子 2:根据肿瘤大小判断乳腺癌是良性还是恶性

    给出多组“肿瘤大小”和“是否是恶性”让计算机学习,这里的“是否是恶性”就是给定的“正确答案”。比如

肿瘤大小 是否是恶性的
2 N
3 N
4 N
4.5
5 Y
6 Y
7 N
8 Y

    给出新的“肿瘤大小(4.5)”则“是否是恶性(Y/N ?)”。(这是一个分类问题:预测离散的输出值)


    如果给出两个特征(feature)"肿瘤大小"和“患者年龄”,以及“正确答案”——“是否的恶性”。比如

       

图 1

    图 1 中蓝色圆圈代表“肿瘤为恶性”(N),红色 x 代表“肿瘤为恶性”(Y);

    当给出一个新的患者的特征“肿瘤大小”和“年龄”(图中绿色的五角星)判断该患者的“肿瘤为恶性”(Y/N ?);

    机器学习算法可能给出图中的黑线区分患者的肿瘤是否为恶性,它认为黑线右上方区域属于“肿瘤为恶性”(Y)区域,黑线左下方区域属于“肿瘤为恶性”(N)。因此,算法对绿色五角星的判断为“肿瘤为恶性”(N)。


 

    患者还可以有更多的特征,比如:肿瘤厚度、细胞大小均匀性、细胞形状均匀性等。


 

    当问题有无限个特征怎么处理呢?(支持向量机等)

原文地址:https://www.cnblogs.com/qkloveslife/p/9795551.html