爬虫常用库的安装

urllib 库

urllib.request库

re库

以上三个基本上python3内置

剩下的用第三方pip安装

1、pip install requsets

 >>>import requests
 >>>requests.get('http://www.baidu.com')

返回响应status

2、pip install selenium（驱动浏览器、自动化测试）

大多数网页存在js渲染，普通requests无法读，可以通过驱动浏览器渲染读取

>>>import selenium
>>>from selenium import webdriver
>>>driver=webdriver.Chrome()

报错，缺少浏览器驱动

3、安装浏览器驱动（chromedriver）

将解压的exe文件移动到pip执行目录中（大概率是script文件夹）

命令行执行chromedriver，成功，继续2的代码

>>>import selenium
>>>from selenium import webdriver
>>>driver=webdriver.Chrome()

成功调用chrome

>>>driver.get('http://www.baidu.com')
>>>driver.page_source//打印渲染过的源代码

4、phantomjs安装

3步骤的渲染每次都需要掉用浏览器驱动，比较多余，可以用phantomjs来省略

下载解压得到exe，添加到环境变量中

>>>from selenium import webdriver
>>>driver=webdriver.PhontomJS()
>>>driver.get('http://www.daidu.com')
driver.page_source//直接得到渲染过的源代码

5、pip install lxml

此处介绍另一种直接安装‘轮子’的方法，下载对应whl文件

命令行执行 pip install ***（***为轮子的路径）即可

6、beautifulsoup安装(需要先安装5)

pip install beautifulsoup4

>>> from bs4 import BeautifulSoup
>>> soup=BeautifulSoup('<html></html>','lxml')
>>> print(soup)
<html></html>

7、pyquery库的安装

pip install pyquery

>>> from pyquery import PyQuery as pq
>>> doc=pq('<html><h1>你好</h1></html>')
>>> result=doc('html').text()//此处调用的jquery的语法
>>> result
'你好'

8、mongdb

安装好后在bin文件夹下面（不是里面）新增‘logs’文件夹，内新增文件mongo.log。。。

9、redis数据库

>>> import redis
>>> r= redis.Redis('localhost',6379)
>>> r.set('name','bob')
True
>>> r.get('name')
b'bob'
>>>

10、flask（web库,设置代理）

pip install flask

11、django

12、jupyter（可以在线执行python代码的工具）

pip install jupyter

>>>import jupyter
>>>jupyter notebbok//跳转浏览器