什么是机器学习

啤酒尿布

沃尔玛根据它每天记录的大量的客户消费数据进行分析,发现了,购买了啤酒的顾客更可能同时购买尿布。所以他们把尿布和啤酒放到一块,结果大幅度的提高了这两者的销售额。

购买尿布和购买啤酒看上去毫无关系,但是通过用户购物数据作为样本发现了其中的关联和规律,对于沃尔玛而言无需知道规律背后的本质,只需要发现这个规律就可以大幅度的提升销售额,这就足够了。

其实机器学习的核心思想也大概如此,就是让计算机程序随着数据样本的积累,可以自动获取精确的判断和归纳能力。

可以把我们要进行分析的数据叫做训练集,把现象归纳的过程叫训练

在啤酒尿布的故事中,沃尔玛使用的是一种叫Apriori的算法,可以用来挖掘关联数据中的频繁项集,也就是找寻数据集合的内在联系

另外我们还知道瑞雪兆丰年的故事,也就是劳动人民通过大量的现象进行分析,如果下了雪,很大程度上明年就是一个丰年。

瑞雪兆丰年和啤酒尿布有本质的区别

  • 瑞雪兆丰年是对一个新现象进行结果预测

  • 啤酒尿布是对相关性的挖掘。

下图是对两个故事的流程进行归纳。

对于瑞雪兆丰年来说,可以根据多年的降雪与来年的丰收情况进行分析,通过某种算法进行训练,然后得到规律也即假设模型

根据降雪情况推断出下一年的收成情况,这就是回归

image.png

对于啤酒尿布属于完全不一样的机器学习类型,只需要找出关联关系,并不需要回归。

image.png

所以这两种其实是完全不同的机器学习方法。

我们可以按照方式不同分为三类:

  • 有监督学习(supervised learning)
    也就是已经有了一部分输入数据和数据数据之间的对应关系,可以生成一个函数,可以通过输入获得输出。
    比如瑞雪兆丰年,头年的降雪量就是输入,来年产量就是输出。
  • 无监督学习:直接对输入进行建模,寻找关联。
    比如啤酒尿布只需要寻找相关性,不需要目标输出。
  • 半监督学习:
    就是上面两种方法综合起来。我们可以对有输入输出的数据+只有输入的数据进行综合分析

image.png

参考

本文为什么是机器学习的笔记

也可以参见简书主页:https://www.jianshu.com/u/482f183ec380
原文地址:https://www.cnblogs.com/dy2903/p/8425888.html