信息采集和信息源

1.确定搜索的内容

2.网络信息爬去

　　2.1 抓取网页（网络浏览器和网络爬虫）

　　2.2 多线程，从一个种子集合开始

　　2.3 robots.txt允许访问的文件，礼貌策略，访问时间限制

　　2.4 时新性，评估每一个页面的变化比率

　　2.5 垂直搜索，面向主题的信息采集，主题爬虫，判断一个网页和某个主题相关，

　　2.6 深层网络，（私人站点，表单结果，脚本页面（比较复杂,需要模拟js运行））

　　2.7 网站地图（robots.txt含有一个对网站地图的引用，可以告诉爬虫爬取网页的相关信息，例如时薪，重要，主题

　　2.8 分布式网络爬虫，使用多个URL队列，使用散列函数，将URL分配给多个信息采集的计算机，当一个爬虫程序看到一个新的URL，就对该地址计算散列值，已确定有哪个计算机负责

3. 文档和电子邮件的采集

4. 转换问题

5. 字符编码

6. 文档存储

　　使用数据库系统

　　随机存取

　　压缩大规模文件

　　更新

　　BigTable数据库

7. 文本重复检测

　　信息指纹
　　文本相似度（余弦定理相似度）

8.去除噪声