13.scrapy框架的日志等级和请求传参
今日概要
- 日志等级
- 请求传参
- 如何提高scrapy的爬取效率
今日详情
一.Scrapy的日志等级
- 在使用scrapy crawl spiderFileName运行程序时,在终端里打印输出的就是scrapy的日志信息。
- 日志信息的种类:
ERROR : 一般错误
WARNING : 警告
INFO : 一般的信息
DEBUG : 调试信息
- 设置日志信息指定输出:
在settings.py配置文件中,加入
LOG_LEVEL = ‘指定日志信息种类’即可。
LOG_FILE = 'log.txt'则表示将日志信息写入到指定文件中进行存储。
二.请求传参
- 在某些情况下,我们爬取的数据不在同一个页面中,例如,我们爬取一个电影网站,电影的名称,评分在一级页面,而要爬取的其他电影详情在其二级子页面中。这时我们就需要用到请求传参。
- 案例展示:爬取www.id97.com电影网,将一级页面中的电影名称,类型,评分一级二级页面中的上映时间,导演,片长进行爬取。
爬虫文件:
items文件:
管道文件:
三.如何提高scrapy的爬取效率
测试案例:爬取校花网校花图片 www.521609.com
配置文件:
【推广】
免费学中医,健康全家人
原文地址:https://www.cnblogs.com/duhong0520/p/13283964.html
- 推荐文章
- 正则表达式
- IPerf——网络测试工具介绍与源码解析(1)
- IPerf——网络测试工具介绍与源码解析(2)
- IPerf——网络测试工具介绍与源码解析(3)
- IPerf——网络测试工具介绍与源码解析(5)
- 网站集成QQ登录功能
- h.264并行解码算法分析
- h.264语法结构分析
- h.264 Mode Decision
- EPZS搜索过程
- h.264参考图像列表、解码图像缓存
- p1186 玛丽卡
- noip寻找道路
- Truck History
- P1330 封锁阳光大学(二分图染色)
- poj 3041 Asteroids
- The Perfect Stall
- 需要注意的-----未完待续
- 联合权值
- P1030 求先序排列
- P1364 医院设置
- Can you solve this equation?
- HDU 3732 Ahui Writes Word
- 2016-2017 ACM-ICPC, NEERC, Southern Subregional Contest H. Delete Them
- 2016-2017 ACM-ICPC, NEERC, Southern Subregional Contest J. Bottles
- 数据结构--KMP算法总结
- Power Strings(KMP)
- KMP (next数组的性质及证明)
- KMP模板
- poj 3461 Oulipo(KMP模板题)