scrapy的demo

流程：

1.scrapy startproject python123demo　　生产爬虫工程

2.scrapy genspider demo python123.io　产生爬虫

3.配置产生的spider

4.编写item pipeline

5.优化配置策略

6.运行爬虫，获取网页

文件信息：

1.scrapy.cfg　　　　　　　　　部署Scrapy框架

2.python123demo（文件夹）　　scrapy框架用户自定义Python代码

3.__init__　　　　　　　　　　初始化脚本

4.items.py　　　　　　　　　　Items代码模块（继承类）

5.middlewares.py　　　　　　middlewares代码模块（继承类）

6.pipelines.py　　　　　　　　pipelines.py代码模块（继承类）

7.settings.py　　　　　　　　　scrapy爬虫的配置文件（优化功能可以修改）

8.spiders（文件夹）　　　　　 spiders代码模块（继承类）

9.__pycache__（文件夹）　　缓存目录（无需修改）

10.__init__.py　　　　　　　　初始文件（无需修改）

demo.py模块

# -*- coding: utf-8 -*-
import scrapy


class DemoSpider(scrapy.Spider):
    name = 'demo'
    #allowed_domains = ['python123.io']
    start_urls = ['http://python123.io/ws/demo.html']

    def parse(self, response):
        fname = response.url.split('/')[-1]
        with open (fname,'wb') as f:
            f.write(response.body)
        self.log('Saved file %s.'% fname)

start_urls方法中有yield，产生生成器，对其调用每次产生一个url链接