整理相似度的一些算法

minHash好像不应该放这里,判断文档的相似性,分类也有问题,应该按照相似度算法划分到一起

局部敏感哈希

Locality Sensitive Hash
一种常见的用于处理高维向量的索引办法。与其它基于Tree的数据结构,诸如KD-Tree、SR-Tree相比,它较好地克服了Curse of Dimension,能够将KNN的时间复杂度缩减到sub-linear。LSH多被用于文本、多媒体(图像、音频)的相似性判断。
LSH是一种概率方法,采用过滤一验证的框架(Filter一and一Refine framework)。在过滤阶段,LSH利用哈希技术把非相似、不可能成为结果的数据对象过滤掉,过滤之后的数据对象作为候选集(CandidateSet),使得相似的数据对象以很高的概率留候选集合中,进而在候选集合上进行实际的距离或者相似性度量计算。由于在过滤阶段非相似的数据对象大部分被过滤掉,候选集合的大小必定会远小于原始数据集,因而极大地缩短了查询计算时间,提高了效率。

整理Hash

consistent hashing

http://en.wikipedia.org/wiki/Cluster_analysis

http://blog.csdn.net/hxxiaopei/article/details/7977248

支持向量机

百度文库爬虫中用到的minHash去重

原文地址:https://www.cnblogs.com/johnnyflute/p/3491422.html