海量数据处理

1.倒排索引

  每一项包括一个属性值和具有该属性值得记录地址

  不是由记录来确定属性值,而是由属性值确定记录。

  某个单词出现的文档编号,列表,也可以存文档编号的差值

2.simHash算法

  比较两篇文章相似度的算法  分词,hash,加权,合并,降维

  每个特征向量(分词)赋值权值,重要程度

  Hash(博客)=101011    哈希值为二进制数组成的n位签名

  加权:  W=Hash*weight    1为+1   0为-1

  合并     降维

  出现越少的词,权值越高

  TF-IDF算法   特征提取得到权重

  降维后得到签名指纹    海明距离   两个二进制异或后1的个数,3以内则相似

3.Bloom Filter

  判断一个元素是否在集合中,空间高效的概率模型

4.MD5

  512位,四分128位   abcd

  

  

原文地址:https://www.cnblogs.com/BetterThanEver_Victor/p/10054573.html