K-means算法 K-means 聚类算法 无监督问题,我们手里没有标签 聚类:相似的东西分到一组 难点:如何评估,如何调参 基本概念 要得到簇的个数,需要制定K值 质心:均值,各个维度取平均即可 距离的度量:常用的欧几里得距离或者与余弦相似度(先标准化) 优化目标:一共有多少个簇,让每一个样本到簇中心点的距离越小越好 K-means算法 优势 简单,快速,适合常规数据集 劣势 K值很难确定 复杂度和样本呈线性关系 很难发现任意形状的簇 使用k-means对数据进行压缩