1. 爬虫概述

一、开发环境搭建介绍

  • Anacanda开发环境
    • Anacanda是一个基于数据分析和机器学习的集成环境(给我们集成好了数据分析和机器学习对应的各种环境和模块)
  • jupyter就是Anacanda这个集成环境提供的一个基于浏览器可视化的编码工具。
    • 注意事项:
      • 在环境搭建好的时候只需要安装Anacanda。安装路径中必须是纯英文且不可以出现特殊符号。
    • 测试安装好了没有:
        1. 打开终端:jupyter notebook按下回车。说明安装成功,且环境变量也配置成功。
        1. 在你所有的程序中(点击windows键),找寻有没有一个叫做anacanda的文件夹,点击该文件夹如果文件夹下方出下一个叫navegator的程序,也表示安装成功。只不过环境变量还没有配置好
  • 如何启动jupyter
    • 方式一:配置好了环境变量,直接在终端录入jupyter notebook按下回车即可。
    • 方式二:没有配置环境变量,打开navegator,点击左上角选项,点击jupyter notebook图标下的lauch启动
      • 推荐:点击左上角的environments
      • 通过点击open terminal打开终端,在该终端中录入jupyter notebook按下回车即可。

二、jupyter的基本使用

  • 在终端中录入jupyter notebook指令后,表示我们在本机启动一个服务。然后会自动打开你的默认浏览器。
    • 注意:你在执行jupyter notebook指令的终端,可以进入到指定的目录中执行jupyter notebook指令后,则打开的浏览器显示的页面就是你当前终端对应目录的目录结构。
      • 你终端对应的目录结构就是你浏览器打开jupyter页面中的根目录。
  • new新建
    • python3:新建一个jupyter的源文件(重点)
      • 有cell组成:cell就是一行可编辑框。
      • cell的作用:
        • 用来根据不同的模式进行代码和笔记的编写。编写好的代码和笔记可以直接在当前文件中运行,查看到运行结果!
      • cell模式:
        • code:可以编写python代码
          • code模式的cell可以写一行代码或多行代码。
          • 特性:编写代码的顺序是无所谓的,但是执行代码的顺序一定是自上向下的。
            • 只需要在一个cell中定义相干变量或者函数或者类(相关定义),当该cell执行后,则定义的内容就会被加载到当前源文件的缓存中,那么表示在其他任意的cell中都可以直接使用之前定义好的加载到缓存中的定义。
          • markdown:编写笔记。可以使用markdown集成好的指令指定文字的样式,也可以直接使用html标签制定文字的样式。
      • folder:新建一个文件夹
      • text file:新建一个任意后缀的文本文件
        • 可以写程序,但是不能直接在该文件中运行。
      • terminal:新建一个基于浏览器的终端。
  • 快捷键的使用
    • 插入cell:a(在目标cell的上面插入一个cell),b(在目标cell的下面插入一个cell)
    • 删除cell:x,双击d
    • 执行cell:shift+enter
    • 切换cell的模式:m(将代码格式切换成笔记格式),y(将笔记格式切换成代码格式)
    • cell执行后,在cell的左侧双击就可以回到cell的可编辑模式
    • 执行结果的收回:在执行结果左侧双击即可
    • 打开帮助文档:shift+tab
    • 撤销:z

三、爬虫概述

  • 什么是爬虫?
    • 就是通过编写程序,让其模拟浏览器上网,然后在互联网中抓取数据的过程
      • 关键词抽取:
        • 模拟:浏览器就是一个纯天然最原始的爬虫工具
        • 抓取:
          • 抓取一整张页面源码数据
          • 抓取一整张页面中的局部数据
  • 爬虫的分类
    • 通用爬虫
      • 要求我们爬取一整张页面源码数据
    • 聚焦爬虫
      • 要求爬取一张页面中的局部数据
        • 聚焦爬虫一定是建立在通用爬虫的基础上的。
    • 增量式爬虫
      • 用来监测网站数据更新情况,以便爬取到网站最新更新出来的数据
    • 分布式爬虫:
      • 提高爬虫效率的中级武器
  • 反爬机制
    • 是作用到门户网站中,如果网站不想让爬虫轻易爬取到数据,它可以制定相关的机制或措施阻止爬虫程序爬取其数据。
  • 反反爬机制
    • 是作用在爬虫程序中。我们爬虫可以制定相关的策略破解反爬机制从而爬取到相关的数据
  • 课程第一个反爬机制:
    • robots协议:防君子不妨小人
      • 是一个纯文本的协议,协议中规定该网站中哪些数据可以被那些爬虫爬取,哪些不可以。
    • 破解:
      • 你自己主观性的不遵从该协议即可
原文地址:https://www.cnblogs.com/borntodie/p/14848889.html