<爬虫>崔庆才的爬虫课

  • 环境安装
    • Windows:Anaconda---python环境的一键安装包(通过文件镜像安装比较快)
      • Anaconda中Scripts文件夹:各种各样的可执行文件coda,pip等
      • coda list:列出所有Anaconda安装的包  
    • 官方安装python
      • 官网下载对应版本安装包,点击运行,下一步,增加环境变量即可
    • PyCharm:python非常好用的IDE  
    • Linux
      • 切换成root账户
        • sudo su
      • 安装对应的依赖库和python3
    • Mac OS
      • 安装Homebrew   
      • 安装python3
        • brew install python3
          
  • MongoDB环境安装

    • Windows

      • 官网下载安装包

      • 打开--下一步--环境变量                            

      • 建立存储数据的文件夹data,在其里面建立db文件夹
      • shif+右键(bin目录下)--配置数据存储信息
        • 在localhost:27017会启动成功
      • 连接客户端:mongo 
      • 配置成服务--增加日志文件
      • 可视化工具:Robomongo---下载安装即可
    • Linux
    • Mac OS
  • Redis环境安装
    • Windows:
      • 下载msi文件---一直下一步就行
      • 安装redis desktop---0.8.8版本的exe文件 ----可视化工具
    • linux
      • 进入客户端
      • 进行远程链接和访问权限密码的设置
    • Mac OS
  • MySQL的环境安装
    • Windows
      • 下载msi安装包---下一步--设置默认端口和密码
      • 会自动添加MySQL的服务
      • 可视化工具MySQL-Front---直接百度安装就行
    • Linux
      • 修改配置文件
        • 限制只能本地访问---注释掉即可
    • Mac OS
  • pyhton多版本共存的问题
    • 根据环境变量的搜索规则---将不同的python版本路径配置进环境变量,将python.exe改成python3.exe就不会名字冲突
    • where python ----查找几个python
    • Windows
      • 将python.exe改成python3.exe---输入python3就只会调用python3--保留python.exe
      • 将python2的版本改成python2.exe--保留pyhton.exe
      • 依旧冲突的python.exe通过更改环境变量的顺序,让其先调用Anaconda中的python.exe即可
      • pip的版本冲突也是完全一样的,通过改名实现多版本共存
    • Linux和Mac OS
      • 找路径
      • 利用软链接实现多版本共存
  • 爬虫常用库的安装
    • Windows
      • urllib  re---内置的库,不需要你安装 
      • requests
        • pip install requests
      • Selenium---主要是做自动化测试
        • 需要安装chromdriver---
      • phantomjs
        • 下载--解压-将bin目录加入环境变量即可
      • lxml---xpath的解析方式
      • beautifulsoup
      • pyquery--网页解析库--跟jquery一样
      • pymysql--存储库
      • pymongo
      • redis
      • flask--简单的web服务器
      • django--web服务器框架
        • pip3 install django 
      • jupyter--记事本--在线编程
    • Linux Mac OS
  • 基础篇  
    • 什么是爬虫?
    • 基本流程
    • request和response
    • request包含什么
    • response包含什么
    • 能抓什么数据
    • 抓起来的数据,解析方式都有哪些
    • 为什么我抓到的和浏览器看到的不一样?
      • 分析,模仿,splash也是模拟  
    • 怎么保存数据
    • Urllib库
    • requests库
    • 正则
    • Selenium
    • pyquery
    • bs4
  • pySpider    
    • 安装
      • pip install pyspider
    • 启用pyspider所有组件
      • pyspider all
  • scrapy
    •               
原文地址:https://www.cnblogs.com/shuimohei/p/13306661.html