jupyter的快捷键:
- 插入cell:a b a是在上方添加,b是在下方添加,
- 删除cell:x,
- 切换cell的模式:m y m为切换到makedown格式,y为切换到code模式,
- 执行cell:shift+enter,
- tab:自动补全,
- shift+tab:打开帮助文档
什么是爬虫:
通过编写程序,模拟浏览器上网,让其去互联网上获取数据的过程
爬虫的分类
1.通用爬虫:获取一整张页面数据
2.聚焦爬虫:根据指定的需求获取页面中指定的局部数据
3.增量式爬虫:用来监测网站数据更新的情况。爬取网站最新更新出来的数据。
反爬机制:网站可以采取先关的技术手段或者策略阻止爬虫程序进行网站数据的爬取
反反爬策略:让爬虫程序通过破击反爬机制获取数据
robots协议:一篇写着网站内容什么是允许爬的,什么是不允许爬的文档 没有什么强制的约束,防君子不防小人
http协议:client和Server进行数据交互的形式
https:安全的http协议
- 对称秘钥加密:
- 非对称秘钥加密:
- 证书秘钥加密:
使用到的头信息:
- User-Agent:请求载体的身份标识
- Connection:'close'
- content-type:
requests模块
- pip install requests
- 作用:就是用来模拟浏览器上网的。
- 特点:简单,高效
- old:urllib
- requests模块的使用流程:
- 指定url
- 发起请求
- 获取响应数据
- 持久化存储
- 反爬机制:UA检测
- 反反爬策略:UA伪装,伪造headers,伪装为google浏览器headers = {
'User-Agent':'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.77 Safari/537.36'
}