Python3爬虫相关软件,库的安装

Anaconda

百度搜Anaconda清华,根据环境选择版本下载

安装时记得勾选添加到环境变量,不要还要手动添加

Anaconda Navigator可视化界面,可以方便地调用Jupyter等工具。

MongoDB

官网下载地址 https://www.mongodb.com/download-center?jmp=nav#production

3.4版本需要如下配置,4.0不需要

在I:MongoDBServer3.4目录下建立datadb

在bin目录下,Shift+鼠标右键,打开PowerShell,输入

mongod --dbpath I:MongoDBServer3.4datadb

验证MongoDB启动成功,在浏览器输入

 

localhost:27017

 

启动MongoDB,打开新的cmd,输入

mongo
db
db.test.insert(('a':'b'))

将MongoDB作为服务,以管理员身份打开cmd,进入bin目录,在data目录下建立logsmongo.log,在cmd中输入

mongod --bind_ip 0.0.0.0 --logpath I:MongoDBServer3.4datalogsmongo.log --logappend --dbpath
I:MongoDBServer3.4datadb --port 27017 -serviceName "MongoDB" --serviceDisplayName "MongoDB" --install

 

Robomongo可视化界面

下载地址:云盘快捷传送门→robo.3t.windows-x86_64.7zhttps://pan.baidu.com/s/1Y5uTvTT9rLlOrW9HnCMp7g 密码:1ycs
(备注:想下载studio.3t的请选择studioxsdaw.rar)

Redis

key-value数据库,用到的时候再安装

=====================================

---------------------------

查询请求库

urllib

python自带,无需安装

request

pip3 install request

import request

requests.get('http://www.baidu.com')

selenium

  打开浏览器执行

先下载chromedriver,解压后包exe文件移动到已经配置了环境变量的目录下,如python/script,然后再执行下面的代码

pip3 install selenium
import selenium
from selenium import webdriver
driver=webdriver.Chrome()
driver.get("http:\www.baidu.com")
driver.page_source \打印网页源码

phantomjs

后台静默运行,无需打开浏览器

下载地址http://phantomjs.org/download.html,解压后将bin目录添加到环境变量即可,无需安装,好像不更新了

可以用headless chrome?

lxml

pip3 install lxml
//另一种安装方式,先下载whl文件,再执行下面的命令
pip3 install whl文件名

beautifulsoup

依赖lxml库,pip安装即可,记得是beautifulsoup4,不要打错

pip3 install beautifulsoup4
python
from bs4 import BeautifulSoup
soup=BeautifulSoup('(html)(/html)','lxml')

pyquery

注意html和/html外面是尖括号,其余是圆括号

pip3 install pyquery
python
from pyquery import PyQuery as pq
doc=pq('<html>hello</html>')//只有这行有尖括号
result=doc('html').text()
result

---------------------------------------------------

存储库

pymysql

注意创建表时要用圆括号。

pip3 install pymysql
python
import pymysql
conn=pymysql.connect(host='localhost',user='root',password='yourpassword',port=3306,db='mysql')
cursor = conn.cursor()  
cursor.execute('select * form db')    返回数据大小
cursor.fetchone()   返回执行结果

执行到这儿的时候出错了,pymysql.err.OperationalError: (1045, "Access denied for user 'root'@'localhost' (using password: YES)")

原因:不是pymysql出错,而是用户名密码的问题,不用密码可以进入mysql数据库,使用密码后反而不能(但我已经按照https://www.cnblogs.com/Pusteblume/p/10165287.html 重设密码了,还是不能登录)

解决方案:卸载重装,虽然不是一个好的方法,但至少解决了问题

 pymongo

pip3 install pymongo
python
import pymongo
client = pymongo.MongoClient('localhost')
db = client['newtestdb']
db['table'].insert({'name':'Bob'})
db['table'].find_one({'name':'Bob'})

redis 分布式爬虫用,维护爬行队列,效率高

直接执行下面的代码会提示由于目标计算机积极拒绝,无法连接,要手动下载Windows版的redis,网址https://github.com/MicrosoftArchive/redis/releases,安装后执行redis-server.exe,启动界面闪了一下就可以了,具体教程如下https://blog.csdn.net/sinat_29957455/article/details/78567194,也有的教程说执行redis-cli.exe,不过我没试过。

pip3 install redis
python
import redis r=redis.Redis(host='localhost',port=6379)
r.set('name','a')
print(r.get('name'))

flask

pip3 install flask

django 和网站有关

pip3 install flask
原文地址:https://www.cnblogs.com/Pusteblume/p/10685826.html