python爬虫之路第一篇:入门

网络爬虫:

  又称网页蜘蛛,把互联网想象成类似于蜘蛛网一样的构造,那么这只爬虫,就是要在上面爬来爬去的,以便捕获我们需要的资源。

urllib模块:

  使用Python编写爬虫代码,要解决的第一个问题是:python如何访问互联网,为了解决这个难题,就需要用到python为我们准备的urllib模块了。urllib由两个单词组成,URL就是平时所说的网页的地址,URL的一般格式:protocol://hostname[port]/path/[;parameters][? query] # fragment,lib就是library(库)的缩写。

URL由三部分组成

  • 协议,常见的协议有http、https、ftp、file(访问本地文件夹)等等
  • 存放资源的服务器的域名系统(DNS)主机名和IP地址(有时候要包含端口号,各种传输协议都有默认的端口号)
  • 主机资源的具体地址,如目录和文件名等

  其实urllib是一个包,里面总共有四个模块。第一个模块是最复杂的 也是最重要的,因为它包含了对服务器请求的发出、跳转、代理和安全等各个方面。通过urllib.request.urlopen()函数就可以访问网页了,可以先来体验一番:

1 import urllib.request
2 response = urllib.request.urlopen("http://www.fishc.com")
3 html = response.read()
4 print(html)

将html还原为带中文的html代码,需要使用decode()方法对其解码,将它变成Unicode编码:

1 import urllib.request
2 response = urllib.request.urlopen("http://www.fishc.com")
3 html = response.read()
4 html = html.decode("utf-8")
5 print(html)
原文地址:https://www.cnblogs.com/wanghao123/p/8722246.html