K-均值聚类及其在生物信息中的应用

如果一点基础没有最好先拿起一本教材开始学,《机器学习实战》还不错,P93,书上有python源码和练习数据,非常适合新手。

k均值聚类

名词:簇;相似度算法

伪代码

创建K个点作为起始质心
当任意一个点的簇分配结果发生变化时:
    对数据集中的每个点:
        对每个质心:
            计算质心到数据点之间的距离
        将数据点分配到距离其最近的簇
    对每一个簇,计算簇中所有点的均值并将均值作为质心

目前的例子里聚类的对象都是数值点,这个在计算均值时比较容易理解,如果换到对人进行聚类(非数值),那怎么计算均值呢?

 

二分k均值聚类

 


数值型数据的聚类比较简单,尤其是坐标型的数据,那如何对非数值型数据进行聚类呢?

用Python实现文档聚类

 

在生物信息中的应用

 

 

待续~

原文地址:https://www.cnblogs.com/leezx/p/6150620.html