简单爬虫架构

运行流程:

URL管理器:

    管理待抓取的URL集合和已抓取的URL集合:防止重复抓取、防止循环抓取。

原文地址:https://www.cnblogs.com/taiguyiba/p/9219229.html