机器学习(三)

机器学习

K-Means

  • 原理:

    • 随机的再原始数据的图像中选择几个随机的点
    • 分别以这些点为k, 也就是为中心, 对数据中其他的点的距离进行判断, 那个点里这随意的点中的一个最近, 就认为该点和随机点是同一类的
    • 分类之后, 再从新分成的每一个堆中的再随机取出一个中心点, 重复第二步
    • 最终, 如果变化不明显了, 就不在迭代了
  • 缺点:
    一般只能处理线性的, 如果是圆环类型的, 不如对笑脸形状的散列图就无法而出期望的聚类
    划分出来的也是线性的

  • 是无监督学习算法

DBSCAN算法

  • Density-Based Spatial Clustering of Applications with Noise
  • 中心对象不再是随机的了, 而是如果某一个点的密度达到了算法设定的阈值则其为中心点
  • 阈值为点的密度
  • 需要一个半径
  • 自己规定一个固定的半径进行画圆, 发展下线
  • 缺点:
    • 因为DBSCAN算法是基于密度的, 所以如果数据集是密度比较密集的就不好算了

特征增强

轮廓系数

  • 有公式
  • 计算样本i到同类其他样本的平均距离ai, ai越小, 说明样本越应该被聚类到该类别, 将ai称之为样本为i的类内不相似度
  • 计算样本到其他类Cj的所有样本的平均距离bij, 称之为样本i与类Cj的不相似度, 定义为样本i的类内不相似度

EM算法

最大似然估计: 累乘求导时使用log转为累加求导

  • 隐变量: 引入隐变量Z, 考虑Z所有的可能性
  • 在机器学习中假设非常的重要, 有了假设就对该假设进行验证, 同时假设可以是多个, 比较各个假设得到的结果, 选择最好的假设
  • Jensen不等式
原文地址:https://www.cnblogs.com/megachen/p/9555827.html