K-均值聚类及其在生物信息中的应用

如果一点基础没有最好先拿起一本教材开始学，《机器学习实战》还不错，P93，书上有python源码和练习数据，非常适合新手。

k均值聚类

名词：簇；相似度算法

伪代码

创建K个点作为起始质心
当任意一个点的簇分配结果发生变化时：
    对数据集中的每个点：
        对每个质心：
            计算质心到数据点之间的距离
        将数据点分配到距离其最近的簇
    对每一个簇，计算簇中所有点的均值并将均值作为质心

目前的例子里聚类的对象都是数值点，这个在计算均值时比较容易理解，如果换到对人进行聚类（非数值），那怎么计算均值呢？

二分k均值聚类

数值型数据的聚类比较简单，尤其是坐标型的数据，那如何对非数值型数据进行聚类呢？

在生物信息中的应用

待续~