网页去重和网页反作弊

今天在阅读<Lucene搜索引擎开发进阶实战,第一章,网络爬虫策略,

里面提到了网页去重,

网页内容重复分为几类,完全重复,仅内容重复,仅布局重复,部分重复.

针对网页去重,有很多算法支撑,

Shingling算法;I-Match算法;Google专用的SimHash算法(公认最优秀);SpotSig算法

还提到了网页作弊:

网页作弊常见的包括内容作弊;链接作弊;隐藏作弊,以及Web2.0作弊

而常见的反作弊方式:

信任传播模式;不信任传播模式;异常发现模式

相对应以上反作弊模式,有TrustRank;BadRank;SpamRank算法

原文地址:https://www.cnblogs.com/simplelovecs/p/5129128.html