整理相似度的一些算法

minHash好像不应该放这里，判断文档的相似性，分类也有问题，应该按照相似度算法划分到一起

局部敏感哈希

Locality Sensitive Hash
一种常见的用于处理高维向量的索引办法。与其它基于Tree的数据结构，诸如KD-Tree、SR-Tree相比，它较好地克服了Curse of Dimension，能够将KNN的时间复杂度缩减到sub-linear。LSH多被用于文本、多媒体（图像、音频）的相似性判断。
LSH是一种概率方法，采用过滤一验证的框架(Filter一and一Refine framework)。在过滤阶段，LSH利用哈希技术把非相似、不可能成为结果的数据对象过滤掉，过滤之后的数据对象作为候选集(CandidateSet)，使得相似的数据对象以很高的概率留候选集合中，进而在候选集合上进行实际的距离或者相似性度量计算。由于在过滤阶段非相似的数据对象大部分被过滤掉，候选集合的大小必定会远小于原始数据集，因而极大地缩短了查询计算时间，提高了效率。

整理Hash

consistent hashing

http://en.wikipedia.org/wiki/Cluster_analysis

http://blog.csdn.net/hxxiaopei/article/details/7977248

支持向量机

百度文库爬虫中用到的minHash去重