201119西瓜书系列博客---9、聚类任务

一、总结

一句话总结：

9.1、聚类任务；9.2、性能度量；9.3、距离计算

9.4、原型聚类：以原型方式聚类

9.5、密度聚类：以密度方式聚类

9.6、层次聚类：以层次方式聚类

1、【9.1、聚类任务】？

聚类试图将数据集中的【样本划分为若干个通常是不相交的子集】，每个子集称为一个簇(cluster)。但需注意的是，聚类过程仅能自动形成簇结构，簇所对应的概念语义需由使用者来把握和命名。

聚类【既能作为一个单独的过程】，用于寻找数据内在的分布结构，【也可作为分类等其他学习任务的前驱过程】。

2、【9.2、性能度量】？

聚类性能度量也称【聚类有效性指标(validity index)】，与监督学习中的【性能度量】作用类似。

对于聚类，一般通用的度量标准为“物以类聚”，即：【簇内相似度高且簇间相似度低】。

3、【9.2、性能度量】两类性能度量？

【外部指标】：将聚类结果与某个参考模型(如将领域专家给出的划分结果作为参考模型)进行比较

【内部指标】：直接考察聚类结果而不利用任何参考模型

4、【9.3、距离计算】根据属性的性质选择采用的距离？

【有序属性】：如{小，中，大}，“小”与“中”较近，与“大”较远。显然，闵可夫斯基距离可用于有序属性。

【无序属性】：如{飞机，火车，轮船}这样的离散属性则不能直接在属性上直接计算距离，称为无序属性。

【混合属性（有序+无序：闵可夫斯基距离和VDM结合）】

5、【9.4、原型聚类】？

原型：【样本空间中具有代表性的点】

原型聚类也称基于原型的聚类(prototype-based clustering)，【此类算法假设聚类结构能通过一组原型刻画】。采用不同的原型表示、不同的求解方式，将产生不同的算法。

6、【9.4、原型聚类】学习向量量化？

学习向量量化（Learning Vector Quantization,LVQ）同k-means聚类类似，也是试图【找到一组原型向量来刻画聚类结构】。

不同的是，LVQ针对于【带有类别标记的数据样本】，学习过程利用【样本的监督信息】（类别标记）来辅助聚类。

7、【9.4、原型聚类】高斯混合聚类？

与k-means、LVQ用原型向量来刻画聚类结构不同，高斯混合聚类采用【概率模型】来表达聚类原型。

8、【9.5、密度聚类】？

密度聚类也称【基于密度的聚类】，此类算法假设聚类结构能通过【样本分布的紧密程度确定】（原型聚类是假设聚类结构能够通过一组【原型刻画】）。

通常情况下，密度聚类算法【从样本密度角度】来考察样本间的【可连接性】（密度直达，密度可达，密度相连），并基于可连接样本来不断拓展聚类簇。

9、【9.6、层次聚类】？

层次聚类试图在【不同层次】对数据集进行划分，从而形成【树形的聚类结构】。

对于数据集的划分，层次聚类通常有两种策略：【自底向上的聚合策略】、【自上而下的分拆策略】

二、201119西瓜书系列博客---9、聚类任务

转自或参考：https://blog.csdn.net/shichensuyu/article/details/94552906

我的旨在学过的东西不再忘记（主要使用艾宾浩斯遗忘曲线算法及其它智能学习复习算法）的偏公益性质的完全免费的编程视频学习网站： fanrenyi.com；有各种前端、后端、算法、大数据、人工智能等课程。

版权申明：欢迎转载，但请注明出处

一些博文中有一些参考内容因时间久远找不到来源了没有注明，如果侵权请联系我删除。

聊技术，交朋友，修心境，qq404006308，微信fan404006308

人工智能群：939687837

作者相关推荐

感悟总结

201119西瓜书系列博客---9、聚类任务

201119西瓜书系列博客---9、聚类任务

一、总结

一句话总结：

9.1、聚类任务；9.2、性能度量；9.3、距离计算

9.4、原型聚类：以原型方式聚类

9.5、密度聚类：以密度方式聚类

9.6、层次聚类：以层次方式聚类

1、【9.1、聚类任务】？

聚类试图将数据集中的【样本划分为若干个通常是不相交的子集】，每个子集称为一个簇(cluster)。但需注意的是，聚类过程仅能自动形成簇结构，簇所对应的概念语义需由使用者来把握和命名。

聚类【既能作为一个单独的过程】，用于寻找数据内在的分布结构，【也可作为分类等其他学习任务的前驱过程】。

2、【9.2、性能度量】？

聚类性能度量也称【聚类有效性指标(validity index)】，与监督学习中的【性能度量】作用类似。

对于聚类，一般通用的度量标准为“物以类聚”，即：【簇内相似度高且簇间相似度低】。

3、【9.2、性能度量】 两类性能度量？

【外部指标】：将聚类结果与某个参考模型(如将领域专家给出的划分结果作为参考模型)进行比较

【内部指标】：直接考察聚类结果而不利用任何参考模型

4、【9.3、距离计算】 根据属性的性质选择采用的距离？

【有序属性】：如{小，中，大}，“小”与“中”较近，与“大”较远。显然，闵可夫斯基距离可用于有序属性。

【无序属性】：如{飞机，火车，轮船}这样的离散属性则不能直接在属性上直接计算距离，称为无序属性。

【混合属性（有序+无序：闵可夫斯基距离和VDM结合）】

5、【9.4、原型聚类】 ？

原型：【样本空间中具有代表性的点】

原型聚类也称基于原型的聚类(prototype-based clustering)，【此类算法假设聚类结构能通过一组原型刻画】。采用不同的原型表示、不同的求解方式，将产生不同的算法。

6、【9.4、原型聚类】 学习向量量化？

学习向量量化（Learning Vector Quantization,LVQ）同k-means聚类类似，也是试图【找到一组原型向量来刻画聚类结构】。

不同的是，LVQ针对于【带有类别标记的数据样本】，学习过程利用【样本的监督信息】（类别标记）来辅助聚类。

7、【9.4、原型聚类】 高斯混合聚类？

与k-means、LVQ用原型向量来刻画聚类结构不同，高斯混合聚类采用【概率模型】来表达聚类原型。

8、【9.5、密度聚类】 ？

密度聚类也称【基于密度的聚类】，此类算法假设聚类结构能通过【样本分布的紧密程度确定】（原型聚类是假设聚类结构能够通过一组【原型刻画】）。

通常情况下，密度聚类算法【从样本密度角度】来考察样本间的【可连接性】（密度直达，密度可达，密度相连），并基于可连接样本来不断拓展聚类簇。

9、【9.6、层次聚类】？

层次聚类试图在【不同层次】对数据集进行划分，从而形成【树形的聚类结构】。

对于数据集的划分，层次聚类通常有两种策略：【自底向上的聚合策略】、【自上而下的分拆策略】

二、201119西瓜书系列博客---9、聚类任务

作者相关推荐

3、【9.2、性能度量】两类性能度量？

4、【9.3、距离计算】根据属性的性质选择采用的距离？

5、【9.4、原型聚类】？

6、【9.4、原型聚类】学习向量量化？

7、【9.4、原型聚类】高斯混合聚类？

8、【9.5、密度聚类】？