啤酒尿布

沃尔玛根据它每天记录的大量的客户消费数据进行分析，发现了，购买了啤酒的顾客更可能同时购买尿布。所以他们把尿布和啤酒放到一块，结果大幅度的提高了这两者的销售额。

购买尿布和购买啤酒看上去毫无关系，但是通过用户购物数据作为样本发现了其中的关联和规律，对于沃尔玛而言无需知道规律背后的本质，只需要发现这个规律就可以大幅度的提升销售额，这就足够了。

其实机器学习的核心思想也大概如此，就是让计算机程序随着数据样本的积累，可以自动获取精确的判断和归纳能力。

可以把我们要进行分析的数据叫做训练集，把现象归纳的过程叫训练

在啤酒尿布的故事中，沃尔玛使用的是一种叫Apriori的算法，可以用来挖掘关联数据中的频繁项集，也就是找寻数据集合的内在联系

另外我们还知道瑞雪兆丰年的故事，也就是劳动人民通过大量的现象进行分析，如果下了雪，很大程度上明年就是一个丰年。

瑞雪兆丰年和啤酒尿布有本质的区别，

下图是对两个故事的流程进行归纳。

对于瑞雪兆丰年来说，可以根据多年的降雪与来年的丰收情况进行分析，通过某种算法进行训练，然后得到规律也即假设模型。

根据降雪情况推断出下一年的收成情况，这就是回归

对于啤酒尿布属于完全不一样的机器学习类型，只需要找出关联关系，并不需要回归。

所以这两种其实是完全不同的机器学习方法。

我们可以按照方式不同分为三类：

有监督学习（supervised learning）
也就是已经有了一部分输入数据和数据数据之间的对应关系，可以生成一个函数，可以通过输入获得输出。
比如瑞雪兆丰年，头年的降雪量就是输入，来年产量就是输出。
无监督学习：直接对输入进行建模，寻找关联。
比如啤酒尿布只需要寻找相关性，不需要目标输出。
半监督学习：
就是上面两种方法综合起来。我们可以对有输入输出的数据+只有输入的数据进行综合分析

参考

也可以参见简书主页：https://www.jianshu.com/u/482f183ec380