python网络爬虫

爬虫流程

①先由urllib的request打开Url得到网页html文档
②浏览器打开网页源代码分析元素节点
③通过Beautiful Soup或则正则表达式提取想要的数据
④存储数据到本地磁盘或数据库（抓取，分析，存储）

网络爬虫的第一步就是根据URL，获取网页的HTML信息。在Python3中，可以使用urllib.request和requests进行网页爬取。

urllib库是python内置的，无需我们额外安装，只要安装了Python就可以使用这个库。
requests库是第三方库，需要我们自己安装。

使用requests库获取网页的HTML信息。requests库的github地址：https://github.com/requests/requests

requests安装

在cmd中，使用如下指令安装requests：

pip install requests

requests库的基础方法

在这里插入图片描述

requests.get()方法，它用于向服务器发起GET请求，requests.get()方法就是从服务器得到、抓住数据，也就是获取数据。

# -*- coding:UTF-8 -*-
import requests

if __name__ == '__main__':
    target = 'http://gitbook.cn/'
    req = requests.get(url=target)
    print(req.text)

requests.get()方法必须设置的一个参数就是url，因为我们得告诉GET请求，我们的目标是谁，我们要获取谁的信息。