python学习-day4上午

回顾：

1.爬虫：爬取数据

2.互联网：由一堆网络设备一台台的计算机互联到一起

3、互联网建立的目的：数据的传递和数据共享

4.上网的全过程：

普通用户：

打开浏览器-》往目标站点（服务器）发送请求-》接受响应数据-》渲染到页面上

爬虫程序：

　模拟浏览器-》往目标站点（服务器）发送请求-》接受响应数据-》提取有用的数据-》保存到本地或者数据库

5.浏览器发送的是：http协议的请求：

　　-请求url

　　-请求方式：GET,POST等

　　-请求头：

　　　　user-agent

　　　　host

6.爬虫的全过程

1、发送请求（请求库）

　　　　——resquent模块

　　　　——selenimu模块

2、获取响应数据（服务器返回）

3、解析并提取数据（解析库）

　　　　——bs4

　　　　——Xpath

4、数据持久化（保存数据）（存储库）

　　　　--MongoDB

其中1、3、4、需要手动完成。

注：当前公司使用：Oracle、Mysql、以及MongoDB

爬虫框架

——Scrapy

7.爬取梨视频

1、分析网站的视频源地址

2、通过requests往是视频源地址发送请求

3、获取到相关视频的二进制流，并保存到本地

今日内容：

1.request模块的详细使用

2.selenium模块