机器学习基础6--集群模型和算法

案例:

　　现在手上有许多的文档,需要将其按照类型(体育,财经,科技等)进行分类,也就是对文章进行分组或聚类.

分析:

　　如果手上有已经标记过类型的数据,可以将其作为训练集进行学习.

　　那么这是否是一个多元分类问题?

其实是监督学习问题

现在我们有一堆无标签的文档,打算推断出相关文章的分组向量.

　　Input:文档向量

　　Output:集群标签

这是一个无监督学习任务.

怎样去定义一个集群:

　　集群用中心和形状来定义.

以形状来判断,上方1号点明显应属于椭圆形集群.而若是以距离来看,2号点明显属于圆形集群.

聚类算法:k-means

　　k均值算法(k-means):固定k个集群,看每个集群的平均值.只考虑集群中心,以此来将数据点分不到不通的集群中.

步骤:

1.初始化集群中心

2.把所有数据点分给离它最近的集群中心.(沃罗诺伊镶嵌算法)

3.将聚类中心修改为指定的观测值的平均值.

4.重复前面的步骤,直到结果收敛.

其他的例子:

　　1.图像分类

　　2.疾病分类

　　3.商品分类

　　4.网页搜索优化

　　5.房价预测

　　6.预测犯罪率

end

课程:机器学习基础：案例研究(华盛顿大学)

视频链接: https://www.coursera.org/learn/ml-foundations/lecture/EPR3S/clustering-documents-task-overview

week4 Clustering models and algorithms