爬虫学习--Day4(小猿圈爬虫开发

爬虫学习--Day4(小猿圈爬虫开发_2)

requests模块
    - urllib模块
    - requests模块

requests模块：python中原生的一款基于网络请求的模块，功能非常强大，简单便捷，效率极高。
作用：模拟浏览器发送请求。

如何使用：（requests模块的编码流程）
    - 指定url
    - 发起请求
    - 获取响应数据
    - 持久化存储

环境的安装：
    pip install requests

实战编码：
    - 需求：爬取搜狗首页页面的数据

 1 # coding=gbk
 2 #Created on 2019/7/7
 3 #@author: XiaoHu
 4 
 5 # 需求：爬取搜狗首页的页面数据
 6 import requests
 7 if __name__ == "__main__":
 8     #step_1 指定url
 9     url = 'https://www.sogo.com/'
10     #step_2 发起请求
11     #get方法会返回一个响应对象
12     response=requests.get(url=url)
13     #step_3 获取响应数据.text返回的是字符串形式的响应数据
14     page_text=response.text
15     print(page_text)
16     #step_4 持久化存储
17     with open('./sogo.html','w',encoding='utf-8') as fp:
18         fp.write(page_text)
19     print('爬取数据结束！！！！！！')