第一周<单元一聚类>

第一周<单元一聚类>

K-means 聚类算法###

初始随机选择
而后不断更新

kmeans 应用省份归类#####

调用kmeans方法所需要的参数

n_clusters 指定的聚类中心
init 初始聚类中心的初始化方法默认k-means++
max_iter 最大的次数默认300
data 数据
label 聚类后所属的标签
fit_predict() 计算簇中心以及为其选取序号

扩展改进######

可以自己改测量方法。。
更改源码
推荐 scipy.spatial.distance.cdist

DBSCAN 密度聚类聚类算法###

这是一种基于密度的聚类算法
将数据点分为三类

核心点：再半径Eps内含有超过MinPts 的点
边界点：在半径Eps内点的数量小于MinPts,但是落在核心点的邻域内
噪音点：其他的点

算法流程#####

将所有点标记为三类点
删除噪声点
为距离在Eps之内的所有核心点之间连一条边
每组连同的哪一个核心点形成一个簇
将每个边界点指派到一个与之相关的核心点的簇中（哪一个核心点的半径范围之内）

算法参数#####

eps
min_samples 簇的样本数？
metric 距离计算方法 edulidean

【推广】免费学中医，健康全家人

原文地址：https://www.cnblogs.com/sfzyk/p/6868556.html