班课8

1. unsupervised learning

可用于cluster analysis，常用方法可以分为两个大类：hierarchical methods, partitioning methods。前者为层级方式

对于同一个cluster来讲，需要同一个cluster里面的元素尽可能接近，不同cluster之间距离尽可能远

2. partitioning常用算法：K-means

随机选取K个中心点，将剩余点划分到据它最近的中心点上

忽略之前的中心点，选取现有cluster中的mean值作为新的中心点

不断重复直到cluster固定

K-means也可以帮助去掉outlier

有可能卡在局部最优的情况

3. Expectation Maximization（判断出属于各个cluster的概率）

与K-means不同，可能属于别的cluster

K个高斯分布混合成X个训练集，估计均值

可理解为给出一个学校所有同学的身高，但是没有给出每个数据是男生还是女生，分别求出男生以及女生的身高，且已知男生女生的身高均符合高斯分布

E step：假设男生身高及女生身高的mean值分别为μ1，μ2. 从而可以判断出每条数据更可能是男生还是女生并求出概率

M step：将原始μ1，μ2根据公式不断更新，使likelihood最大化

不断重复直到收敛

4. Hierarchical Clustering

找两个最相近的cluster，合并并更新

更新方式有single linkage, complete linkage, average linkage

具体步骤为：先计算每两个点之间的距离

　　选取距离最小的，合并

　　更新方式采取上述三个，single link即采取cluster里的点与剩下点距离最小的那个；complete即距离最远的两个点；average link同理

　　得到层级结构，在合适的地方切断得到对应数目的cluster

5. Elbow method：确定几个cluster最好，计算不同的K的情况下，每一个cluster内所有点到中心点距离和，画出图像选取拐点作为optical number

6. silhouette plot属于-1-1之间，a(i)指第i个点距离其他所有点距离的均值

d(i,C)指第i个点距离另一个cluster中点的均值

d(i,C）中最小的是b(i), 代入公式，越接近1越好

对每个点都能计算，求平均值

7. PCA：降维

如图片中二维图片的横纵坐标可替换成一个歇着的坐标轴，就变成一维

8. Autoencoders

x通过encoder降维，得到z; 再decoder得到x的预测，计算预测与真实x的loss function，根据loss继续