垃圾网页检测的基本原理

垃圾网页分类

1. 基于链接方式
　　　　a）连接结构
　　　　b）网页排名
　　2. 基于内容方式
　　　　a）排队时间(rank-time)
　　　　b）查询相关(query-dependent)
　　3. 隐藏方式
　　　　a）内容隐藏
　　　　b）覆盖
　　　　c）重定向

垃圾网页特征

1.标题长度 —— 关键词堆砌
2.网页内容大量重复同一关键字
　　a)   TF/IDF算法
　　　　认为关键词在文档中的权重，正比于其在文档中出现的频率，反比与所有文档中出现该关键词的文档数。用于计算网页文本与目标关键词的相关度。
　　b) 网页压缩率
　　　　通过压缩网页，并计算得到压缩前后大小的比值
3.标签
　　a)   keywords
　　b)   description
4. 网页URL长度
5. 常用词出现率
6. 常用词使用率
7. 可视文本长度
8. 链接文本数量