蜘蛛采集系统构造

最近在做一个蜘蛛采集的软件,应用到垂直搜索系统中.经过详细分析使用方提出了以下需求:

1.采集指定网站的指定内容.

2.将目标网站的内容分析后转换成客户自己的数据结构.

3.采集完成后自动发布到后台数据库.

4..在发布过程中要做到过虑重复内容

以上四个需求分别对应采集,分析,入库三个部分.针对以上需求我初步做了以下设计:

原文地址:https://www.cnblogs.com/hznet/p/1805280.html