python爬虫入门

1、URL的含义:

URL,即同意资源定位符,也就是我们常说的网址。URL的格式包含三个部分:1)第一部分是协议(或者称为服务方式);2)第二部分是存有该资源的之际IP地址(有时也包括端口);3)第三部分是主机资源的具体地址,如目录和文件名等。

爬虫爬取数据时必须有一个目标的URL,因此,它是爬虫获取数据的基本依据。

2、urllib库的基本用法

(1)首先试着爬一个网页下来

import urllib2
response=urllib2.urlopen("http://www.baidu.com")
print response.read()

原文地址:https://www.cnblogs.com/swrong/p/7873077.html