垃圾网页检测的基本原理

 垃圾网页分类 

      1. 基于链接方式
    a)连接结构
    b)网页排名
  2. 基于内容方式
    a)排队时间(rank-time)
    b)查询相关(query-dependent)
  3. 隐藏方式
    a)内容隐藏
    b)覆盖
    c)重定向

垃圾网页特征

1.标题长度 —— 关键词堆砌
2.网页内容大量重复同一关键字
  a)   TF/IDF算法
    认为关键词在文档中的权重,正比于其在文档中出现的频率,反比与所有文档中出现该关键词的文档数。用于计算网页文本与目标关键词的相关度。
  b)  网页压缩率
    通过压缩网页,并计算得到压缩前后大小的比值
3.标签
  a)   keywords
  b)   description
4.  网页URL长度
5.  常用词出现率
6.  常用词使用率
7.  可视文本长度
8.  链接文本数量

原文地址:https://www.cnblogs.com/sweetyu/p/5085346.html