爬虫学习之-管道说明

图片管道启用:
item中必须包含image_urls和images属性
image_urls中必须是列表,每个元素是一个带有http的链接
images里面数据任意,经过图片管道后会被重新赋值
图片管道必须被启用
配置文件中的选项:
ITEM_PIPELINES = {
'scrapy.pipelines.images.ImagesPipeline':2,
# 'images.pipelines.ImagesPipeline': 1,
}
IMAGES_STORE = '图片存储路径'
IMAGES_MIN_HEIGHT = 1000 # 图片最小高度限制
IMAGES_MIN_WIDTH = 1200 # 图片最小宽度限制
IMAGES_EXPIRES = 90 # 失效时间,单位:天
IMAGES_THUMBS = { # 设置缩略图,可以多个键值对
'small':(50,50),
'big':(600,600)
}
文件管道总结
文件管道启用:
item中必须包含file_urls和files属性
file_urls中必须是列表,每个元素是一个带有http的链接
files里面数据任意,经过文件管道后会被重新赋值
文件管道必须被启用
配置文件中的选项:
课程中涉及的知识点
ITEM_PIPELINES = {
# 'images.pipelines.ImagesPipeline': 1,
'scrapy.pipelines.files.FilesPipeline':2,
}
FILES_STORE = '文件存储路径'
1、 Xpath函数,contains(),前者是源,例如text(),@src;后者是比较的字
符,例如http
2、 if判断,如果问号在字符串中,表达式 if '?' in 字符串
3、 列表操作,往列表中添加一个值,列表名.append(值)
4、列表操作,for循环列表中的每个值,for i in 列表
5、管道文件的位置,如下
from scrapy.pipelines.images import ImagesPipeline
from scrapy.pipelines.files import FilesPipeline
from scrapy.pipelines.media import MediaPipeline

  

原文地址:https://www.cnblogs.com/brady-wang/p/9695092.html