Scrapy安装和项目创建

安装说明

scrapy安装需要安装一些第三方依赖库,依赖库的安装与需要和Python版本,Windows位数,所需的电脑插件有关。

参考信息:Python3.6,Windows10 64位

相关软件下载:

链接:https://pan.baidu.com/s/1Vzx8GGeojmUzMSZExJac4w
提取码:jv54

环境准备

安装 Microsoft Visual C++ 14.0

升级pip版本

Python pip install --upgrade pip --force-reinstall

安装第三方库(CMD命令)

在线安装

使用默认镜像网址安装(下载较慢)
pip install 库名
使用豆瓣镜像安装
pip --default-timeout=100  install 库名 -i http://pypi.douban.com/simple --trusted-host pypi.douban.com

离线安装

Python第三库下载网址:https://www.lfd.uci.edu/~gohlke/pythonlibs/

安装解析离线库的第三方库
pip --default-timeout=100  install wheel -i http://pypi.douban.com/simple --trusted-host pypi.douban.com

pip install 本地离线库完整路径(不能有中文)

安装scrapy所需的库

pip --default-timeout=100  install requests -i http://pypi.douban.com/simple --trusted-host pypi.douban.com
pip --default-timeout=100  install lxml -i http://pypi.douban.com/simple --trusted-host pypi.douban.com
pip --default-timeout=100  install pyOpenSSL -i http://pypi.douban.com/simple --trusted-host pypi.douban.com
pip --default-timeout=100  install Twisted -i http://pypi.douban.com/simple --trusted-host pypi.douban.com
pip --default-timeout=100  install pywin32 -i http://pypi.douban.com/simple --trusted-host pypi.douban.com
pip --default-timeout=100  install scrapy -i http://pypi.douban.com/simple --trusted-host pypi.douban.com

创建爬虫项目

打开CMD

进入需要创建项目的文件夹

创建项目
scrapy startproject 项目名

2019-08-24_18-58-00

使用Pycharm打开项目

2019-08-24_18-49-27

自动生成爬虫文件

打开Pycharm自带的CMD输入
baiduSpider:爬虫名  www.baidu.com:爬取的网站
Scrapy genspider baiduSpider www.baidu.com

2019-08-24_18-56-17

运行爬虫项目

通过命令运行

baiduSpider:爬虫名
scrapy crawl baiduSpider

2019-08-24_19-18-02

使用Python脚本运行

在spiderDM目录创建一个Run.py文件输入如下代码

from scrapy import cmdline
cmdline.execute("scrapy crawl baiduSpider".split(" "))

运行Run.py文件就可以运行 baiduSpider爬虫

原文地址:https://www.cnblogs.com/studyNotesSL/p/11409546.html