Information Retrieval II

Information Retrieval II

  搜索引擎分类:

    1、目录式搜索引擎。

    2、全文搜索引擎。

    3、元搜索引擎(Meta-Search Engine)。

  搜索引擎的4个阶段:下载(crawl) -> 分析(segment & pagerank)-> 索引(indexing)-> 查询(retrieval)。

  crawler,也就是传说中的爬虫,或者蜘蛛。

  

  下载、分析、索引被称为“离线部分”(offline part),也叫做在线系统;查询部分被称为“在线部分“(online part),也叫做离线系统。在线系统需要毫秒级的访问速度,而离线系统无时间要求,所以大部数的离线工作会设计成需要1-4周。

  对于网页搜索(即传说中的大搜索),存储分为网页数据(镜像)和网页索引。

网页抓取策略

  网页的重要性:  

  1、链接欢迎度:反向链接。

  2、链接重要度:包括.com或home的URL重要度高,以及具有较少斜框‘/’的重要度高。

  3、平均链接深度:离种子网页越近的重要度越高。

  所以,重要性=a*反向链接标量 + b*链接重要度标量。

Robots协议

  robots协议是一个robots.txt名字的文件,放置在站点的根目录上。里面记录了哪些是不让抓取的目录。

抓取提速策略

  1、提高抓取单个网页的速度。(被证明基本不可行)

  2、尽可能减少不必要的抓取任务。(难度大)

  3、增加同时工作的爬虫数量。(可行)

    对于小的网站,为了节省成本,通过多个域名会映射到一个IP;而对于大型网站,因为访问量大,使用了负载均衡,即一个域名对应多个IP。所以无论按域名还是按IP来分工crawler的任务,都会有重复。在实际应用中,通过是按照域名来划分crawler任务,国为小在网页即始重复数据也不多,可以接受。

网页结构化数据

  

 anchor,全称是anchor text,中文名字叫锚文本。

齐普夫法则

  齐普夫法则为:第k个最经常出现的词,其词频与1/k成正比。即第k常出现的词,他的出现率为一个常量的1/k。

  

原文地址:https://www.cnblogs.com/tekkaman/p/3390260.html