K-means算法

K-means算法

K-means 聚类算法

无监督问题，我们手里没有标签
聚类：相似的东西分到一组
难点：如何评估，如何调参

基本概念

要得到簇的个数，需要制定K值
质心：均值，各个维度取平均即可
距离的度量：常用的欧几里得距离或者与余弦相似度（先标准化）
优化目标：一共有多少个簇，让每一个样本到簇中心点的距离越小越好

K-means算法

优势
简单，快速，适合常规数据集
劣势
K值很难确定
复杂度和样本呈线性关系
很难发现任意形状的簇

使用k-means对数据进行压缩

【推广】免费学中医，健康全家人

原文地址：https://www.cnblogs.com/jly1/p/13097737.html