201119西瓜书系列博客---9、聚类任务

201119西瓜书系列博客---9、聚类任务

一、总结

一句话总结:

9.1、聚类任务;9.2、性能度量;9.3、距离计算
9.4、原型聚类:以原型方式聚类
9.5、密度聚类:以密度方式聚类
9.6、层次聚类:以层次方式聚类

1、【9.1、聚类任务】?

聚类试图将数据集中的【样本划分为若干个通常是不相交的子集】,每个子集称为一个簇(cluster)。但需注意的是,聚类过程仅能自动形成簇结构,簇所对应的概念语义需由使用者来把握和命名。
聚类【既能作为一个单独的过程】,用于寻找数据内在的分布结构,【也可作为分类等其他学习任务的前驱过程】。

2、【9.2、性能度量】?

聚类性能度量也称【聚类有效性指标(validity index)】,与监督学习中的【性能度量】作用类似。
对于聚类,一般通用的度量标准为“物以类聚”,即:【簇内相似度高且簇间相似度低】。

3、【9.2、性能度量】 两类性能度量?

【外部指标】:将聚类结果与某个参考模型(如将领域专家给出的划分结果作为参考模型)进行比较
【内部指标】:直接考察聚类结果而不利用任何参考模型

4、【9.3、距离计算】 根据属性的性质选择采用的距离?

【有序属性】:如{小,中,大},“小”与“中”较近,与“大”较远。显然,闵可夫斯基距离可用于有序属性。
【无序属性】:如{飞机,火车,轮船}这样的离散属性则不能直接在属性上直接计算距离,称为无序属性。
【混合属性(有序+无序:闵可夫斯基距离和VDM结合)】

5、【9.4、原型聚类】 ?

原型:【样本空间中具有代表性的点】
原型聚类也称基于原型的聚类(prototype-based clustering),【此类算法假设聚类结构能通过一组原型刻画】。采用不同的原型表示、不同的求解方式,将产生不同的算法。

6、【9.4、原型聚类】 学习向量量化?

学习向量量化(Learning Vector Quantization,LVQ)同k-means聚类类似,也是试图【找到一组原型向量来刻画聚类结构】。
不同的是,LVQ针对于【带有类别标记的数据样本】,学习过程利用【样本的监督信息】(类别标记)来辅助聚类。

7、【9.4、原型聚类】 高斯混合聚类?

与k-means、LVQ用原型向量来刻画聚类结构不同,高斯混合聚类采用【概率模型】来表达聚类原型。

8、【9.5、密度聚类】 ?

密度聚类也称【基于密度的聚类】,此类算法假设聚类结构能通过【样本分布的紧密程度确定】(原型聚类是假设聚类结构能够通过一组【原型刻画】)。
通常情况下,密度聚类算法【从样本密度角度】来考察样本间的【可连接性】(密度直达,密度可达,密度相连),并基于可连接样本来不断拓展聚类簇。

9、【9.6、层次聚类】?

层次聚类试图在【不同层次】对数据集进行划分,从而形成【树形的聚类结构】。
对于数据集的划分,层次聚类通常有两种策略:【自底向上的聚合策略】、【自上而下的分拆策略】

二、201119西瓜书系列博客---9、聚类任务

转自或参考:https://blog.csdn.net/shichensuyu/article/details/94552906

 
我的旨在学过的东西不再忘记(主要使用艾宾浩斯遗忘曲线算法及其它智能学习复习算法)的偏公益性质的完全免费的编程视频学习网站: fanrenyi.com;有各种前端、后端、算法、大数据、人工智能等课程。
博主25岁,前端后端算法大数据人工智能都有兴趣。
大家有啥都可以加博主联系方式(qq404006308,微信fan404006308)互相交流。工作、生活、心境,可以互相启迪。
聊技术,交朋友,修心境,qq404006308,微信fan404006308
26岁,真心找女朋友,非诚勿扰,微信fan404006308,qq404006308
人工智能群:939687837

作者相关推荐

原文地址:https://www.cnblogs.com/Renyi-Fan/p/14015182.html