Python爬虫学习：二、爬虫的初步尝试

我使用的编辑器是IDLE，版本为Python2.7.11，Windows平台。

1.尝试抓取指定网页

1 #encoding:utf-8
2 import urllib2
3 
4 url = "http://www.cnblogs.com/"
5 data = urllib2.urlopen(url).read()
6 print data

我使用urllib2这个库，有关这个库的详细解释请看Python 标准库 urllib2 的使用细节，上图是博客园首页的源码，已经被扒下来了~~

爬取网页源码的核心两行就是第4行和第5行。

1 url = "http://www.cnblogs.com/"

这行代码主要是指定了我们需要爬取的网页地址。

1 data = urllib2.urlopen(url).read()

这行代码是调用urllib2库里面的urlopen方法，传入一下url，就是上面我们指定的网页地址。并通过read()方法将网页的源码读入到data中。urlopen一般接受三个参数，如下所示：

1 urlopen(url, data, timeout)

第一个参数url，就是我们自己指定的网页地址，第二个参数data是访问url时要传送的数据，第三个参数timeout是设置超时时间。

第二个和第三个参数可以不用设置，data默认设置为None，timeout的默认设置为socket._GLOBAL_DEFAULT_TIMEOUT