Scrapy入门

Scrapy入门


1.安装scrapy

  • linux环境下直接执行命令:
    • pip  install scrapy
  • 安装完成之后直接在控制台输入:scrapy,如不报错,则安装成功

        

2.创建项目

  • scrapy  startproject  <project_name>
    • 这个命令可以在任何文件夹下运行,执行完毕之后会在当前目录下创建一个你的项目的名字的文件夹
    • 该文件夹的目录结构:
      • project_name
        • project_name
          • sriders
            • __init__.py
          • __init__.py
          • items.py
          • middlewares.py
          • piplines.py
          • settings.py
        • #scrapy.cfg    //它是scrapy项目的配置文件,其内定义了项目文件的配置文件路径、部署相关信息等内容。
        • #items.py    //它定义了items的数据结构,所有的items都可以在这里定义。
        • #middlewares.py    //它定义了spider middlewares和download middlewares的实现。
        • #piplines.py     //它定义item pipline的实现,所有的item pipline的实现都可以放在这里。
        • #settings.py    //定义项目的全局配置

    

3.创建spider

  • 在scrapy.cfg的同级目录下执行命令:
    • scrapy  genspider  <spider_name>  <project_start_url>
    • 执行完毕之后会在spiders的目录下生成一个<spider_name>.py的文件

    

4.实际创建

  1. scrapy  startproject  books
  2. cd books
  3. scrapy  genspider  quanshu  quanshuwang.com
  4. cd  books/scrapy
  5. cat  quanshu.py
  6.  1 # -*- coding: utf-8 -*-
     2 import scrapy
     3 
     4 
     5 class QuanshuSpider(scrapy.Spider):
     6     name = 'quanshu'
     7     allowed_domains = ['quanshuwang.com']
     8     start_urls = ['http://quanshuwang.com/']
     9 
    10     def parse(self, response):
    11         pass

       该文件里面有个<project_name>的类,该类继承自scrapy.Spider

    name:该爬虫的名字,有且唯一,用于区别不同的爬虫和启动项目

    allowed_domains:爬虫允许访问的域名

    start_url:爬虫其实的url

    parse方法:爬虫启动的时候,会默认调用parse,该方法主要用于对网页的解析。该方法有一个response参数,该参数为访问的url的结果对象。可以在parse方法中print(dir(response))来了解该对象的方法和属性。

5.启动爬虫

  scrapy  crawl  <project_name>[类的name属性]

原文地址:https://www.cnblogs.com/ivy-blogs/p/10884047.html