python爬虫之路第一篇：入门

网络爬虫：

　　又称网页蜘蛛，把互联网想象成类似于蜘蛛网一样的构造，那么这只爬虫，就是要在上面爬来爬去的，以便捕获我们需要的资源。

urllib模块：

　　使用Python编写爬虫代码，要解决的第一个问题是：python如何访问互联网，为了解决这个难题，就需要用到python为我们准备的urllib模块了。urllib由两个单词组成，URL就是平时所说的网页的地址，URL的一般格式：protocol://hostname[port]/path/[;parameters][? query] # fragment,lib就是library(库)的缩写。

URL由三部分组成

协议，常见的协议有http、https、ftp、file（访问本地文件夹）等等
存放资源的服务器的域名系统（DNS）主机名和IP地址（有时候要包含端口号，各种传输协议都有默认的端口号）
主机资源的具体地址，如目录和文件名等

　　其实urllib是一个包，里面总共有四个模块。第一个模块是最复杂的也是最重要的，因为它包含了对服务器请求的发出、跳转、代理和安全等各个方面。通过urllib.request.urlopen()函数就可以访问网页了，可以先来体验一番：

1 import urllib.request
2 response = urllib.request.urlopen("http://www.fishc.com")
3 html = response.read()
4 print(html)

将html还原为带中文的html代码，需要使用decode()方法对其解码，将它变成Unicode编码：

1 import urllib.request
2 response = urllib.request.urlopen("http://www.fishc.com")
3 html = response.read()
4 html = html.decode("utf-8")
5 print(html)