第六课：爬虫常用库的安装-(崔庆才_Python3爬虫入门到精通课程视频 34课)总结

请求库，解析库，存储库，工具库

请求库：Requests和selenium

Windows安装过程，urllib和re库，python内置库，不需要安装的基本库

Requests库，做请求常用的库，第三方安装方式pip3 install requests然后验证这个库的安装导入包import requests然后请求输入requests.get(‘http://www.baidu.com’)输出<Response [200]>就是正常的了

Selenium库，主要用来寻找浏览器的库，主要用来做自动化测试的库，比如有些网站用JS渲染的时候就用selenium库，requsest就无法用了。

Cmd命令行输入python然后导入包import selenium如果没有安装就pip3 install selenium然后再导入包import selenium接着输入from selenium import webdriver回车，接着声明对象输入driver = webdriver.Chrome()如果报错需要安装Chromedriver浏览器http://chromedriver.storage.googleapis.com/index.html（需符合版本），输入driver.get('http://www.baidu.com')就能显示百度官网页面，输入driver.page_source就可以打印出网友源代码了。

没有界面的浏览器模式phantomjs无界面浏览器。下载地址https://bitbucket.org/ariya/phantomjs/downloads/phantomjs-2.1.1-windows.zip解压配置环境变量，cmd下输入phantomjs接着输入console.log(‘hello world’)

重新进入cmd命令模式输入python导入包from selenium import webdriver声明对象driver = webdriver.PhantomJS()接着driver.get('http://www.baidu.com') 输入driver.page_source就可以打印出网友源代码了。

Lxml库的安装，提供了xpth解析库，直接cmd打开输入pip3 install lxml或者官网https://pypi.org/project/lxml/#files下载lxml-4.6.2-cp27-cp27m-win_amd64.whl 版本，卸载原来的库pip3 uninstall lxml然后鼠标右键lxml-4.6.2-cp27-cp27m-win_amd64.whl 版本找到路径，然后在cmd命令下输入pip3 install+复制的路径（前提是必须要安装pip3 install wheel）

Beautifulsoup库安装，网页信息库，依赖于lxml库，cmd命令下pip3 install beautifulsoup4然后输入python进入交互模式输入from bs4 import BeautifulSoup调用库，声明一个对象用lxml库soup = BeautifulSoup(‘<html></html>’,’lxml’)回车（为什么是bs4可以下载源代码lxml-4.6.2.tar.gz (3.2 MB)看下就知道了）

Pyquery库安装在cmd命令下输入pip3 install pyquery然后输入python进入交互模式导入包from pyquery import PyQuery as pq声明pyquery对象，传人参数网页源代码输入doc = pq('<html></html>')再输入网页源代码输入内容doc = pq('<html>hello</html>')输入result = doc('html').text()再输入result就会打印内容hello

Pyquery官网https://pythonhosted.org/pyquery/和语法网址https://pythonhosted.org/pyquery/api.html

Pymysql存储库（python3的库代替python2原来的库msqlpython）操作mysql数据库的库，首先打开mysql-front 看一下，安装pip3 install pymysql然后cmd‘输入python进入交互模式验证是否能用输入import pymysql声明mysql链接对象和地址 conn = pymysql.connect(host=‘localhost’, user=‘root’, password=‘123456’, port=3306, db=’mysql’)接着调用cursor方法输入cursor = conn.cursor()执行select语句cursor.execute('select * from db')输入cursor.fetchone()

Pymongo安装操作mongodb的，mongodb是ky的非关系型数据库，打开计算机管理的服务和应用程序，看看mongodb是否启动，如果启动了就在cmd命令下输入pip3 install pymongo安装，输入python验证这个库import pymongo声明mongodb的链接对象输入client = pymongo.MongoClient(‘localhost’)参数就是这个localhost回车，接着声明一个对象数据库名称叫newtestdb输入db = client['newtestdb']调用db声明表明插入数据db['table'].insert({'name': 'Bob'})输入查询db[‘’table].find_one({‘name’: ‘Bob’})

Redis库安装菲关系型数据库ky存储，分布式爬虫用到，cmd打开命令行pip3 install redis输入python进入交互模式验证，输入导入包import redis声明对象r = redis.Redis('localhost', 6379)回车，调用set方法建立键值对r.set('name', 'Bob')回车，接着拿name的值输入r.get('name')就完成了数据的插入和获取。

Flask库的安装，代理服务器的时候用到，要获取代理设置存储等，flask官网https://dormousehole.readthedocs.io/en/latest/

点击一个最小的应用了解，在cmd命令下输入pip3 install flask安装，输入python验证，导入包import flask，不报错就证明已经正常安装了。

Django库的安装，web服务器框架库，提供了完整的后台管理，模板和接口和路由，可以用django做完整的网站，也是非常简单。Django网站https://docs.djangoproject.com/，进入documentation

了解django介绍，后面分布式爬虫维护也要用到django库。需要做一个管理系统，用来维护分布式爬虫信息，cmd命令行输入python3 -m pip install Django完整，输入python验证，导入包import django不报错说明已经安装完成了。

Jupyter库的安装，记事本库，功能比较强大，运行在网页，可以在记事本里写上代码，还可以进行调试，还可以进行在线的运行，等，jupyter官方网站https://jupyter.readthedocs.io/en/latest/，在cmd命令下输入python3 -m pip install jupyter安装，在cmd命令行输入jupyter notebook会看到弹出一个浏览器，新建一个python3文件

，文件改名

改成testdemo然后输入代码print(‘hello world’)测试(ctrl+回车)

键盘B键增加命令行，

Linux 和 mac系统，这些库的安装过程，怎么命令行输入pip3 install requests selenium beautifulsoup4 pyquery pymysql pymongo redis flask Django jupyter然后命令行验证下输入python进入交互模式，import flask回车，再输入import pyquery回车，import Django回车，import requests回车，import selenium回车，import pymysql回车，等等不出问题就是安装成功。