海量数据处理

海量数据处理

1.倒排索引

　　每一项包括一个属性值和具有该属性值得记录地址

　　不是由记录来确定属性值，而是由属性值确定记录。

　　某个单词出现的文档编号，列表，也可以存文档编号的差值

2.simHash算法

　　比较两篇文章相似度的算法分词，hash，加权，合并，降维

　　每个特征向量（分词）赋值权值，重要程度

　　Hash(博客)=101011 哈希值为二进制数组成的n位签名

　　加权： W=Hash*weight 1为+1 0为-1

　　合并降维

　　出现越少的词，权值越高

　　TF-IDF算法特征提取得到权重

　　降维后得到签名指纹海明距离两个二进制异或后1的个数，3以内则相似

3.Bloom Filter

　　判断一个元素是否在集合中，空间高效的概率模型

4.MD5

　　512位，四分128位 abcd

　　

　　

【推广】免费学中医，健康全家人

原文地址：https://www.cnblogs.com/BetterThanEver_Victor/p/10054573.html