Pyspider的基本使用

Pyspider的基本使用


pyspider的任务流程:

  1. 每个pyspider的项目对应一个Python的脚本,该脚本中定义了一个Handler类,它有一个on_start方法。爬取首先调用on_start方法生成的最初的抓取任务,然后发送给Scheduler进行调度。
  2. Scheduler将抓取任务分发给Fetcher进行抓取,Fetcher执行并得到响应,随后将响应发送给Processer。
  3. Processer处理响应并提取新的url生成新的抓取任务,然后通过消息队列的方式通知Scheduler当前抓取任务执行情况,并将新生成的抓取任务发送给Scheduler。如果生成了新的提取结果,则将其发送到消息队列等待result worker处理。
  4. Scheduler接收到新的抓取任务,然后查询数据库,判断其如果是新的任务或者是需要重试的任务就继续进行调度,然后将其发送回Fetcher进行抓取。
  5. 不但重复以上工作,知道所有的任务都执行完毕,抓取结束。
  6. 抓取结束后,程序后回调on_finish方法,可以定义后处理过程。

 

原文地址:https://www.cnblogs.com/ivy-blogs/p/10873376.html