分布式爬虫(2)

一、什么是爬虫

1、HTTP简介

  (1)HTTP=Hyper text Transfer Protocol

  (2)URI=Uniform Resource Identifier

  (3)URL=Uniform Resource Locator

  (4)URI和URL的区别:URI强调的是资源,而URL强调的死资源的位置

2、常用请求类型

  (1)OPTIONS:返回服务器针对特定资源所支持的http请求方法

  (2)HEAD:向服务器所有与get请求相一致的响应,只不过响应体不会被返回

  (3)GET:向特定资源发出请求

  (4)PUT:向指定资源位置上传其最新内容

  (5)POST向指定资源提交数据进行处理请求

  (6)DELETE:请求服务器删除指定URL所标示的资源

  (7)PATCH:用来将局部修改用于某一资源

3、HTTP常见的状态码

  (1)200/ok:请求成功

  (2)201/created:请求已经被实现,且有一个资源已经根据请求被建立,URI跟随Location头信息返回

  (3)202/Accepted:服务器已经接收请求,但是尚未被处理

  (4)400/Bad Request:请求无法被服务器理解

  (5)401/Unauthorized:当前请求需要用户验证

  (6)403/Forbidden:服务器已经理解请求,但是拒绝执行

  (7)404/Not Founf

4、HTML/XML/Json简介

  (1)HTML(Hypertext Markup Language)

    不是编程怨言,而是一种标记语言,即HTML使用标记标签来描述网页

    标签和元素

    DOM文档

 <p>xxx</p>  //段落    <标签  属性="属性的值"></标签>
 <a........></a>  //链接属性  <a  href='www.baidu.com'></a>

  (2)XML(extensible Markup Language)

  (3)Json(JavaScript Object Notation)

    语法类似xml,但是更小、更快、更容易解析。对JavaScript更加友好

二、爬虫框架介绍

  1、爬虫的工作流程  

    1)将种子URL放入队列

    2)从队列汇总获取URL,抓取内容

    3)解析抓取内容,将需要进一步抓取的URL放入工作队列,存储解析后的内容

  2、抓取策略

    1)深度优先

    2)广度优先

    3)PageRank

    4)大站优先策略

  3、如何去重

    1)Hash表

    2)bloom过滤器:

  4、爬虫的质量标准

    1)分布式

    2)可伸缩性

    3)性能和有效性

    4)质量

    5)新鲜性

    6)更新

    7)可扩展行

    8)Map/Reuce背后

    9)布隆过滤器

  5、Robots规范与原则  

    1)Robots规范:

      (1)Robots协议(也称之为爬虫协议,机器人协议等)的全称是网络爬虫排除标准,网站通过Robots协议告诉搜索引擎哪些页面可以爬取,哪些页面不可以爬取。Robots协议的本质是网站和爬虫引擎的沟通方式,用来指导搜索引起更好的爬取网站的内容,而不是作为搜索引擎之间相互限制和不正当竞争的工具

原文地址:https://www.cnblogs.com/bigdata-stone/p/9852480.html