班课8

1. unsupervised learning

可用于cluster analysis,常用方法可以分为两个大类:hierarchical methods, partitioning methods。前者为层级方式

对于同一个cluster来讲,需要同一个cluster里面的元素尽可能接近,不同cluster之间距离尽可能远

2. partitioning常用算法:K-means

随机选取K个中心点,将剩余点划分到据它最近的中心点上

忽略之前的中心点,选取现有cluster中的mean值作为新的中心点

不断重复直到cluster固定

K-means也可以帮助去掉outlier

有可能卡在局部最优的情况

3. Expectation Maximization(判断出属于各个cluster的概率)

与K-means不同,可能属于别的cluster

K个高斯分布混合成X个训练集,估计均值

可理解为给出一个学校所有同学的身高,但是没有给出每个数据是男生还是女生,分别求出男生以及女生的身高,且已知男生女生的身高均符合高斯分布

E step:假设男生身高及女生身高的mean值分别为μ1,μ2. 从而可以判断出每条数据更可能是男生还是女生并求出概率

M step:将原始μ1,μ2根据公式不断更新,使likelihood最大化

不断重复直到收敛

4. Hierarchical Clustering

找两个最相近的cluster,合并并更新

更新方式有single linkage, complete linkage, average linkage

具体步骤为:先计算每两个点之间的距离

  选取距离最小的,合并

  更新方式采取上述三个,single link即采取cluster里的点与剩下点距离最小的那个;complete即距离最远的两个点;average link同理

  得到层级结构,在合适的地方切断得到对应数目的cluster

5. Elbow method:确定几个cluster最好,计算不同的K的情况下,每一个cluster内所有点到中心点距离和,画出图像选取拐点作为optical number

6. silhouette plot属于-1-1之间,a(i)指第i个点距离其他所有点距离的均值

d(i,C)指第i个点距离另一个cluster中点的均值

d(i,C)中最小的是b(i), 代入公式,越接近1越好

对每个点都能计算,求平均值

7. PCA:降维

如图片中二维图片的横纵坐标可替换成一个歇着的坐标轴,就变成一维

8. Autoencoders

x通过encoder降维,得到z; 再decoder得到x的预测,计算预测与真实x的loss function,根据loss继续

原文地址:https://www.cnblogs.com/eleni/p/12792266.html