Items instructions

Items instructions

爬取的主要目标就是从非结构性的数据源提取结构性数据,例如网页。 Scrapy提供 Item 类来满足这样的需求。

Item 对象是种简单的容器,保存了爬取到得数据。 其提供了 类似于词典(dictionary-like) 的API以及用于声明可用字段的简单语法。


使用命令创建了一个 zhihu 项目:

$ scrapy startproject zhihu

导入 IDE 后可以看到 items 文件内是继承了 scrapy.Item 类

对 item 进行测试,命令行使用 ipython 进入 python 环境,执行:

>>> import scrapy
>>> class person(scrapy.Item):
        name=scrapy.Field()
        job=scrapy.Field()
        email=scrapy.Field()

实例话导入数据:

>>> hotstone = person(name="shilei", job="teacher", email="383821949@qq.com")
>>> print(hotstone)

数据会以 JSON 格式进行存储。

>>> hotstone.keys()dict_keys(['name''job''email'])>>> hotstone.items()ItemsView({'email''383821949@qq.com''job''teacher''name''shilei'})

原文地址:https://www.cnblogs.com/dalton/p/11353859.html