1. 爬虫概述

一、开发环境搭建介绍

Anacanda开发环境
- Anacanda是一个基于数据分析和机器学习的集成环境（给我们集成好了数据分析和机器学习对应的各种环境和模块）
jupyter就是Anacanda这个集成环境提供的一个基于浏览器可视化的编码工具。
- 注意事项：
  - 在环境搭建好的时候只需要安装Anacanda。安装路径中必须是纯英文且不可以出现特殊符号。
- 测试安装好了没有：
  - 1. 打开终端：jupyter notebook按下回车。说明安装成功，且环境变量也配置成功。
  - 1. 在你所有的程序中（点击windows键），找寻有没有一个叫做anacanda的文件夹，点击该文件夹如果文件夹下方出下一个叫navegator的程序，也表示安装成功。只不过环境变量还没有配置好
如何启动jupyter
- 方式一：配置好了环境变量，直接在终端录入jupyter notebook按下回车即可。
- 方式二：没有配置环境变量，打开navegator，点击左上角选项，点击jupyter notebook图标下的lauch启动
  - 推荐：点击左上角的environments
  - 通过点击open terminal打开终端，在该终端中录入jupyter notebook按下回车即可。

二、jupyter的基本使用

在终端中录入jupyter notebook指令后，表示我们在本机启动一个服务。然后会自动打开你的默认浏览器。
- 注意：你在执行jupyter notebook指令的终端，可以进入到指定的目录中执行jupyter notebook指令后，则打开的浏览器显示的页面就是你当前终端对应目录的目录结构。
  - 你终端对应的目录结构就是你浏览器打开jupyter页面中的根目录。
new新建
- python3：新建一个jupyter的源文件（重点）
  - 有cell组成：cell就是一行可编辑框。
  - cell的作用：
    - 用来根据不同的模式进行代码和笔记的编写。编写好的代码和笔记可以直接在当前文件中运行，查看到运行结果！
  - cell模式：
    - code:可以编写python代码
      - code模式的cell可以写一行代码或多行代码。
      - 特性：编写代码的顺序是无所谓的，但是执行代码的顺序一定是自上向下的。
        
        只需要在一个cell中定义相干变量或者函数或者类（相关定义），当该cell执行后，则定义的内容就会被加载到当前源文件的缓存中，那么表示在其他任意的cell中都可以直接使用之前定义好的加载到缓存中的定义。
      - markdown：编写笔记。可以使用markdown集成好的指令指定文字的样式，也可以直接使用html标签制定文字的样式。
  - folder：新建一个文件夹
  - text file：新建一个任意后缀的文本文件
    - 可以写程序，但是不能直接在该文件中运行。
  - terminal：新建一个基于浏览器的终端。
快捷键的使用
- 插入cell：a（在目标cell的上面插入一个cell），b（在目标cell的下面插入一个cell）
- 删除cell：x,双击d
- 执行cell：shift+enter
- 切换cell的模式：m（将代码格式切换成笔记格式）,y（将笔记格式切换成代码格式）
- cell执行后，在cell的左侧双击就可以回到cell的可编辑模式
- 执行结果的收回：在执行结果左侧双击即可
- 打开帮助文档：shift+tab
- 撤销：z

三、爬虫概述

什么是爬虫？
- 就是通过编写程序，让其模拟浏览器上网，然后在互联网中抓取数据的过程
  - 关键词抽取：
    - 模拟：浏览器就是一个纯天然最原始的爬虫工具
    - 抓取：
      - 抓取一整张页面源码数据
      - 抓取一整张页面中的局部数据
爬虫的分类
- 通用爬虫
  - 要求我们爬取一整张页面源码数据
- 聚焦爬虫
  - 要求爬取一张页面中的局部数据
    - 聚焦爬虫一定是建立在通用爬虫的基础上的。
- 增量式爬虫
  - 用来监测网站数据更新情况，以便爬取到网站最新更新出来的数据
- 分布式爬虫：
  - 提高爬虫效率的中级武器
反爬机制
- 是作用到门户网站中，如果网站不想让爬虫轻易爬取到数据，它可以制定相关的机制或措施阻止爬虫程序爬取其数据。
反反爬机制
- 是作用在爬虫程序中。我们爬虫可以制定相关的策略破解反爬机制从而爬取到相关的数据
课程第一个反爬机制：
- robots协议：防君子不妨小人
  - 是一个纯文本的协议，协议中规定该网站中哪些数据可以被那些爬虫爬取，哪些不可以。
- 破解：
  - 你自己主观性的不遵从该协议即可