python学习-day4上午

回顾:

1.爬虫:爬取数据

2.互联网:由一堆网络设备一台台的计算机互联到一起

3、互联网建立的目的:数据的传递和数据共享

4.上网的全过程:

普通用户:

     打开浏览器-》往目标站点(服务器)发送请求-》接受响应数据-》渲染到页面上

爬虫程序:

 模拟浏览器-》往目标站点(服务器)发送请求-》接受响应数据-》提取有用的数据-》保存到本地或者数据库

5.浏览器发送的是:http协议的请求:

  -请求url

  -请求方式:GET,POST等

  -请求头:

    cookies

    user-agent

    host

6.爬虫的全过程

1、发送请求(请求库)

    ——resquent模块

    ——selenimu模块

2、获取响应数据(服务器返回)

3、解析并提取数据(解析库)

    ——bs4

    ——Xpath

4、数据持久化(保存数据)(存储库)

    --MongoDB

其中1、3、4、需要手动完成。

注:当前公司使用:Oracle、Mysql、以及MongoDB

爬虫框架

——Scrapy

7.爬取梨视频

1、分析网站的视频源地址

2、通过requests往是视频源地址发送请求

3、获取到相关视频的二进制流,并保存到本地

今日内容:

1.request模块的详细使用

2.selenium模块

原文地址:https://www.cnblogs.com/evan0925/p/11020874.html