爬虫任务队列方案以及性能测试

方案

任务队列存储在redis的list中,所有下载过、未下载的url存储在redis的set,通过set的sismember函数查重。

性能

set成员1.2kw左右,进行10000次测试,每次测试时需查重的url数量不一(20~100);

结果显示1000次查重运算(以及更多数量的正则匹配等运算)的合计速度是0.15秒;

因为sismember函数的时间复杂度是O(1),估计只要set成员数量不是特别多,这个测试的速度是有参考价值的。

本文原创发表于http://www.cnblogs.com/qijj,转载请保留此声明。
原文地址:https://www.cnblogs.com/qijj/p/6295531.html