urllib库爬虫技术从0开学习

urllib库

urllib库是pytho中一个最基本网络请求库。可以模拟浏览器的行为，向指定的服务器发送一个请求，并可以保存服务器返回的数据。

urllopen函数

在python的urllib库中，有什么函数供我们使用，所以请求相关的方法都集成到urllib.request模块下以面了，先看urlopen函数基础使用：

from urllib import request
resp = request.urlopen('http://www.baidu.com')
print(resp.read())

View Code

事实上，使用浏览器访问百度右键查看源代码，你会发现跟我们刚才打印出来的数据是一模一样的，也就是说上面三行代码就已经帮我们把百度首页的全部代码全部扒下来，，一个基本的url对应的python真的非常简单，，

以下对urllopen函数的进行详细讲解：
1 url: 请求的url
2 data : 请求的data,如果设置了这个值，那么将变成post请求
3 返回值：返回值是一个http.client.HTTPRespons对象，这个对象是一个类文件句柄有read(size),readline,readlines 以及getcode等方法