Scrapy 创建项目 (未完)

1. 安装python3

2. python虚拟环境搭建

https://www.jianshu.com/p/ad2d8ee4a679

3.Python3.6 下 Scrapy 安装

http://blog.csdn.net/yctjin/article/details/70658811

4.Scrapy创建项目

workon py3env

cd g:/pyproject

scrapy startproject jd

在PyCharm中打开项目

5.Scrapy项目结构说明

scrapy.cfg
项目的配置文件,带有这个文件的那个目录作为scrapy项目的根目录
items.py
定义你所要抓取的字段
pipelines.py
管道文件,当spider抓取到内容(item)以后,会被送到这里,这些信息(item)在这里会被清洗,去重,保存到文件或者数据库。
middlewares.py
中间件,主要是对功能的拓展,你可以添加一些自定义的功能,比如添加随机user-agent, 添加proxy。
settings.py
设置文件,用来设置爬虫的默认信息,相关功能开启与否,比如是否遵循robots协议,设置默认的headers,设置文件的路径,中间件的执行顺序等等。
spiders/
在这个文件夹下面,编写你自定义的spider。

6.编写爬虫

在项目中的spiders文件夹下面创建一个文件,命名为baidu.py我们将在这个文件里面编写我们的爬虫。
原文地址:https://www.cnblogs.com/snakejia/p/8274940.html