scrapy框架_简单基础命令操作

如何创建一个Scrapy的框架

#TestOne是名字
scrapy startproject  TestOne

在spiders子目录中创建一个爬虫文件

# spiderName 名字
# www.xxx.com起始url
scrapy genspider  spiderName www.xxx.com

执行工程的指令

#spiderName是在spiders子目录中创建一个爬虫文件的名字
scrapy crawl  spiderName
#取消打印日志,会取消报错,报错返回的是空
scrapy crawl  spiderName -nolog
#!!!但是,在配置文件settings.py文件中添加参数
#显示指定类型的日志信息
LOG_LEVEL="ERROR"



#在配置文件settings.py文件中修改参数
是否遵从robotst协议
ROBOTSTXT_OBEY = False

scrapy创建好的spiders子目录中创建好的爬虫文件内容

import scrapy


class FirstSpider(scrapy.Spider):
    #爬虫文件的名称:就是爬虫源文件唯一标识
    name = 'first'
    #允许的域名:用来限制start_urls那些url可以进行请求发送
    allowed_domains = ['www.baidu.com','https://www.sogou.com/',]
    #启始url的列表:该列表存放的url会被scrapy自动请求发送
    start_urls = ['http://www.baidu.com/',
                  'https://www.sogou.com/',]

    #用于数据解析:response参数表示就是请求成功后对应的响应对象
    def parse(self, response):
        print(response)