关于聚类、贝叶斯、决策树、频繁项挖掘和隐马尔科夫等算法

从14年开始，机器学习见诸招聘的简章，于是乎无论是学界还是工业界特别是媒体改变了计算机专业的应聘掌握技能的格局。聚类算法显然簇内样本距离尽量的近，簇与簇之间的样本尽量的远更好。

最近实验室的老师开会忽然问这个，马上回去翻了一下，原来南京的周老师书上写的很明白了，只是自己看完忘，记性差。外部评价指标有JC,FMI,RI,Purity,AC,NMI。而内部评价指标有DBI和DI。　　

http://blog.csdn.net/wuyanxue/article/details/56845186

聚类这样看非常吃机器的资源。来回的算样本之间的距离。聚类需要好的机器来跑，特别是串行的聚类，而不是跑那些非常优化的并行算法可比的。

朴素贝叶斯公式：

P(Yi|X)=(P(Yi)*P(X|Yi))/∑(P(Yi)*P(X|Yi))

而决策树目前仍然还是信息熵为最好的计算方式。但是前一阵南京理工的李泽超老师的报告提出强化学习和GNN似乎效果比互信息效果好。

频繁项挖掘目前基本都是基于Apriori，预测的方法似乎可以加进来提高效率。

至于HMM和EM，期望+迭代，相对还是比贝叶斯复杂。