信息采集和信息源

1.确定搜索的内容

2.网络信息爬去

  2.1 抓取网页(网络浏览器和网络爬虫)

  2.2 多线程,从一个种子集合开始

  2.3 robots.txt允许访问的文件,礼貌策略,访问时间限制

  2.4 时新性,评估每一个页面的变化比率

  2.5 垂直搜索,面向主题的信息采集,主题爬虫,判断一个网页和某个主题相关,

  2.6 深层网络,(私人站点,表单结果,脚本页面(比较复杂,需要模拟js运行))

  2.7 网站地图(robots.txt含有一个对网站地图的引用,可以告诉爬虫爬取网页的相关信息,例如时薪,重要,主题

  2.8 分布式网络爬虫,使用多个URL队列,使用散列函数,将URL分配给多个信息采集的计算机,当一个爬虫程序看到一个新的URL,就对该地址计算散列值,已确定有哪个计算机负责

3. 文档和电子邮件的采集

4. 转换问题

5. 字符编码

6. 文档存储

  使用数据库系统

  随机存取

  压缩大规模文件

  更新

  BigTable数据库

7. 文本重复检测

  信息指纹
  文本相似度(余弦定理相似度)

8.去除噪声

原文地址:https://www.cnblogs.com/csxf/p/3421724.html