爬虫常用库的安装

urllib 库

urllib.request库

re库

以上三个基本上python3内置

剩下的用第三方pip安装

1、pip install requsets

 >>>import requests
 >>>requests.get('http://www.baidu.com')

返回响应status

2、pip install selenium(驱动浏览器、自动化测试)

大多数网页存在js渲染,普通requests无法读,可以通过驱动浏览器渲染读取

>>>import selenium
>>>from selenium import webdriver
>>>driver=webdriver.Chrome()

报错,缺少浏览器驱动

3、安装浏览器驱动(chromedriver)

//(版本对应表

将解压的exe文件移动到pip执行目录中(大概率是script文件夹)

命令行执行chromedriver,成功,继续2的代码

>>>import selenium
>>>from selenium import webdriver
>>>driver=webdriver.Chrome()

成功调用chrome

>>>driver.get('http://www.baidu.com')
>>>driver.page_source//打印渲染过的源代码

4、phantomjs安装

3步骤的渲染每次都需要掉用浏览器驱动,比较多余,可以用phantomjs来省略

下载解压得到exe,添加到环境变量中


>>>from selenium import webdriver
>>>driver
=webdriver.PhontomJS()
>>>driver.get(
'http://www.daidu.com')
driver.page_source
//直接得到渲染过的源代码

5、pip install lxml

此处介绍另一种直接安装‘轮子’的方法,下载对应whl文件

命令行执行 pip install ***(***为轮子的路径)即可

6、beautifulsoup安装(需要先安装5)

pip install beautifulsoup4

>>> from bs4 import BeautifulSoup
>>> soup=BeautifulSoup('<html></html>','lxml')
>>> print(soup)
<html></html>

7、pyquery库的安装 

pip install pyquery

>>> from pyquery import PyQuery as pq
>>> doc=pq('<html><h1>你好</h1></html>')
>>> result=doc('html').text()//此处调用的jquery的语法
>>> result
'你好'

8、mongdb

安装好后在bin文件夹下面(不是里面)新增‘logs’文件夹,内新增文件mongo.log。。。

9、redis数据库

>>> import redis
>>> r= redis.Redis('localhost',6379)
>>> r.set('name','bob')
True
>>> r.get('name')
b'bob'
>>>

10、flask(web库,设置代理)

pip install flask

11、django

12、jupyter(可以在线执行python代码的工具)

pip install jupyter

>>>import jupyter
>>>jupyter notebbok//跳转浏览器
原文地址:https://www.cnblogs.com/wang666/p/8109247.html