scrapy的demo

流程:

1.scrapy startproject python123demo  生产爬虫工程

2.scrapy genspider demo python123.io 产生爬虫

3.配置产生的spider

4.编写item pipeline

5.优化配置策略

6.运行爬虫,获取网页

文件信息:

1.scrapy.cfg            部署Scrapy框架

2.python123demo(文件夹)  scrapy框架用户自定义Python代码

3.__init__            初始化脚本

4.items.py           Items代码模块(继承类)

5.middlewares.py         middlewares代码模块(继承类)

6.pipelines.py          pipelines.py代码模块(继承类)

7.settings.py         scrapy爬虫的配置文件(优化功能可以修改)

8.spiders(文件夹)       spiders代码模块(继承类)

9.__pycache__(文件夹)     缓存目录(无需修改)

10.__init__.py         初始文件(无需修改)

demo.py模块

# -*- coding: utf-8 -*-
import scrapy


class DemoSpider(scrapy.Spider):
    name = 'demo'
    #allowed_domains = ['python123.io']
    start_urls = ['http://python123.io/ws/demo.html']

    def parse(self, response):
        fname = response.url.split('/')[-1]
        with open (fname,'wb') as f:
            f.write(response.body)
        self.log('Saved file %s.'% fname)

start_urls方法中有yield,产生生成器,对其调用每次产生一个url链接

原文地址:https://www.cnblogs.com/zsc329/p/9365690.html