Information Retrieval II

【Information Retrieval II】

　　搜索引擎分类：

　　　　1、目录式搜索引擎。

　　　　2、全文搜索引擎。

　　　　3、元搜索引擎(Meta-Search Engine)。

　　搜索引擎的4个阶段：下载(crawl) -> 分析（segment & pagerank）-> 索引（indexing）-> 查询（retrieval）。

　　crawler，也就是传说中的爬虫，或者蜘蛛。

　　下载、分析、索引被称为“离线部分”(offline part)，也叫做在线系统；查询部分被称为“在线部分“(online part)，也叫做离线系统。在线系统需要毫秒级的访问速度，而离线系统无时间要求，所以大部数的离线工作会设计成需要1-4周。

　　对于网页搜索（即传说中的大搜索），存储分为网页数据（镜像）和网页索引。

【网页抓取策略】

　　网页的重要性：　　

　　1、链接欢迎度：反向链接。

　　2、链接重要度：包括.com或home的URL重要度高，以及具有较少斜框‘/’的重要度高。

　　3、平均链接深度：离种子网页越近的重要度越高。

　　所以，重要性=a*反向链接标量 + b*链接重要度标量。

【Robots协议】

　　robots协议是一个robots.txt名字的文件，放置在站点的根目录上。里面记录了哪些是不让抓取的目录。

【抓取提速策略】

　　1、提高抓取单个网页的速度。(被证明基本不可行)

　　2、尽可能减少不必要的抓取任务。（难度大）

　　3、增加同时工作的爬虫数量。（可行）

　　　　对于小的网站，为了节省成本，通过多个域名会映射到一个IP；而对于大型网站，因为访问量大，使用了负载均衡，即一个域名对应多个IP。所以无论按域名还是按IP来分工crawler的任务，都会有重复。在实际应用中，通过是按照域名来划分crawler任务，国为小在网页即始重复数据也不多，可以接受。

【网页结构化数据】

anchor，全称是anchor text，中文名字叫锚文本。

【齐普夫法则】

　　齐普夫法则为：第k个最经常出现的词，其词频与1/k成正比。即第k常出现的词，他的出现率为一个常量的1/k。