Python爬虫的开发

HTTP请求的Python实现帮助大家了解Python中实现HTTP请求的各种方式

具备编写HTTP网络程序的能力

------

通用网络爬虫聚焦网络爬虫增量式网络爬虫深层网络爬虫

-----

实际的网络爬虫系统通常是几种爬虫技术相结合实现的

0-----

搜索引擎search Engine

通用的网络爬虫存在一定的局限性

-------------

常见的BT网站通过爬取互联网的DHT网络中分享的BT种子信息

提供对外搜索服务

例如

http://www.cilisou.cn

------

云盘搜索网站爬取用户共享出来的云盘文件数据对文件数据进行分类划分

http://www.pansou.com

-----------

种子URL -----待抓取的URL---读取URL----》已下载网页数据----->抽取URL

------------

urllib Request httplib

------

我们首先了解一下 Urllib 库，它是 Python 内置的 HTTP 请求库，也就是说我们不需要额外安装即可使用，它包含四个模块：

第一个模块 request，它是最基本的 HTTP 请求模块，我们可以用它来模拟发送一请求，就像在浏览器里输入网址然后敲击回车一样，只需要给库方法传入 URL 还有额外的参数，就可以模拟实现这个过程了。
第二个 error 模块即异常处理模块，如果出现请求错误，我们可以捕获这些异常，然后进行重试或其他操作保证程序不会意外终止。
第三个 parse 模块是一个工具模块，提供了许多 URL 处理方法，比如拆分、解析、合并等等的方法。
第四个模块是 robotparser，主要是用来识别网站的 robots.txt 文件，然后判断哪些网站可以爬，哪些网站不可以爬的，其实用的比较少
---------------