hadoop与spark的处理技巧（六）聚类算法(1)简介与类型

一、聚类模型的简介
   实际应用中，无监督的例子非常常见，原因是在许多真实场景中，标注数据
的获取非常困难，代价非常大（比如，人工为分类模型标注训练数据）。但是，我们仍然想要从
数据中学习基本的结构用来做预测。
   在很多情况下，聚类模型等价于分类模型的无监督形式。用分类的方法，我们可以学习分类
模型，预测给定训练样本属于哪个类别。
   在聚类中，我们把数据进行分割，这样每个数据样本就会属于某个部分，称为类簇。类簇相
当于类别，只不过不知道真实的类别。
   聚类模型的很多应用和分类模型一样，比如：
（1）基于行为特征或者元数据将用户或者客户分成不同的组；
（2）对网站的内容或者零售店中的商品进行分组；
（3）找到相似基因的类；
（4）在生态学中进行群体分割；

（5）创建图像分割用于图像分析的应用，比如物体检测。
二、聚类模型的类型
   在Spark2.0版本中（不是基于RDD API的MLlib），共有四种聚类方法：
     （1）K-means
     （2）Latent Dirichlet allocation (LDA)
     （3）Bisecting k-means（二分k均值算法）
     （4）Gaussian Mixture Model (GMM)。
       基于RDD API的MLLib中，共有六种聚类方法：
     （1）K-means
     （2）Gaussian mixture
     （3）Power iteration clustering (PIC)
     （4）Latent Dirichlet allocation (LDA)**
     （5）Bisecting k-means
     （6）Streaming k-means
       多了Power iteration clustering (PIC)和Streaming k-means两种。