首次实现大批量的数据抓取

通过使用第三方的数据抓取套件,成功的实现对某一个网站数据的抓取。

定义:任务也称为是“主题”,或者是“线索”;

关键点:对网页结构的解析。

在xml的技术上面做文章。

操作:实现任务的编辑,线索的编辑,上传,保存至服务器。

加载。

需要注意的是:使用FF作为母体,插件与母体的版本号对应,否则可能不兼容。

在获取软件的时,注意一个是服务的账号,一个是社区的账号。

这个网站的验证码是大小写敏感的。

现在发现一个这样的现象:就是某一个公司在推广自己的一项技术或者说是一个产品的时候,

总是建立一个配套的技术社区。

这也是为了聚集人气吧。

原文地址:https://www.cnblogs.com/thxuaimin/p/2797836.html