hadoop与spark的处理技巧(六)聚类算法(1)简介与类型

一、聚类模型的简介
    实际应用中,无监督的例子非常常见,原因是在许多真实场景中,标注数据
的获取非常困难,代价非常大(比如,人工为分类模型标注训练数据)。但是,我们仍然想要从
数据中学习基本的结构用来做预测。
    在很多情况下,聚类模型等价于分类模型的无监督形式。用分类的方法,我们可以学习分类
模型,预测给定训练样本属于哪个类别。
    在聚类中,我们把数据进行分割,这样每个数据样本就会属于某个部分,称为类簇。类簇相
当于类别,只不过不知道真实的类别。
    聚类模型的很多应用和分类模型一样,比如:
(1)基于行为特征或者元数据将用户或者客户分成不同的组;
(2)对网站的内容或者零售店中的商品进行分组;
(3)找到相似基因的类;
(4)在生态学中进行群体分割;

(5)创建图像分割用于图像分析的应用,比如物体检测。
二、聚类模型的类型    
    在Spark2.0版本中(不是基于RDD API的MLlib),共有四种聚类方法:
     (1)K-means
     (2)Latent Dirichlet allocation (LDA)
     (3)Bisecting k-means(二分k均值算法)
     (4)Gaussian Mixture Model (GMM)。
       基于RDD API的MLLib中,共有六种聚类方法:
     (1)K-means
     (2)Gaussian mixture
     (3)Power iteration clustering (PIC)
     (4)Latent Dirichlet allocation (LDA)**
     (5)Bisecting k-means
     (6)Streaming k-means
       多了Power iteration clustering (PIC)和Streaming k-means两种。

原文地址:https://www.cnblogs.com/gaohuajie/p/10231896.html