爬虫常用库的安装

请求库

解析库

存储库

工具库

 请求库

urlib re  python内置库

Requests   pip3 install requests  #pip2,pip-conda都是可以选择的

selenium  pip3 install selenium

chromedriver 

下载页面:https://sites.google.com/a/chromium.org/chromedriver/

下载解压后,将解压文件放入python\scripts目录下

测试

 python下输入:

from selenium import webdriver
driver = webdriver.Chrome()

顺利打开了网页

driver.get('https://www.python.org')  就能打开python官网

phantomjs  静默浏览器  无界面浏览器

下载页:http://phantomjs.org/download.html

下载后解压,找个地方存放,进入bin目录,将该目录路径放入系统环境变量下。

进入交互控制台

python下输入

from selenium import webdriver
driver = webdriver.PhantomJS()

driver.get('https://www.python.org')
driver.page_source

网页解析库

lxml      pip3 install lxml

BeautifulSoup   pip3 install beautifulsoup4

pyquery     pip3 install pyquery

  语法同Jquery,pyquery文档 https://pythonhosted.org/pyquery/

 存储库

pymysql   pip3 install pymysql 

pymongo  pip3 install pymongo

redis  pip3 install redis

工具库

flask  web服务,代理设置  pip3 install flask

  flask文档http://docs.jinkan.org/docs/flask/

django  pip3 install django

jupyter  pip3 install jupyter

原文地址:https://www.cnblogs.com/ttrrpp/p/6855656.html