----------【1-论文开题报告】----------


开题报告:爬虫监控造价网站并采集信息价数据

课题的目的、意义以及和本课题有关的国内外现状分析

  1.目的:
     本课题主要目的是设计爬虫程序监控网站信息数据,若网站数据更新则做邮件通知,再调度执行对应的爬虫项目采集网站数据。
  
  2.意义:
     解决工作中人工手动对网站监控的任务,由于人工去对网站更新查询比对即耗时又耗力而且还达不到很好的效果,若监控量小的话
  还好解决,但是一旦需要监控的网站数量大起来就很难管理,因此设置一个自动监控爬虫的程序并能做到更新通知对于网站的监控
  就变得方便又高效,网站量大也不影响,无非针对网站多定义一个爬虫规则。
   
   方法:
     根据不同的网站利用scrapy编写对应的规则,对需要监控的数据进行截取MD5加密,获取网站名称name,链接url,时间戳time,
  统一入库的四个字段,存入mysql作比对,并将归纳爬虫项目,设置单线程定时调用需要监控爬虫程序,网站数据更新则作通知,之
  后再调度爬虫采集数据。
  
  3.现状:
     大数据时代来临,对数据的需求量日益增长,自动化的爬虫程序能采集到大量有价值的数据满足人们的需求,但相应的网站反爬与反反
  爬也是一直在斗争,常见的反爬频繁验证码、ip限制、js加密等。
  目前来说反爬限制最频繁的就是验证码这方面,而且验证码的方式有很多类,又简单的滑动验证(拖动碎片到正确的位置),输入式验证码
  (识别图片内容)、点击式图文验证(给出提示文字做出点击验证)等,一般爬虫遇到验证码都会去跳过验证,因为其解决起来费时费力效
率还不高。ip限制也是网站常用的反爬措施,对用户ip进行异常监控检测,一旦请求异常就禁止访问,解决ip限制就会使用到代理ip,有付费代理
  和免费的高匿代理。js加密就是最高级的反爬措施了,破解起来难度更大,需要分析其规则机制。

研究目标、研究内容和准备解决的问题:

1.目标:
    完成scrapy爬虫对监控网站规则的编写及管理,Gerapy分布式管理爬虫项目,根据邮件更新提示调度相对应的爬虫项目执行爬虫程序采集数据,
实现程序的自动化处理定时监控功能。

2.内容:
    针对不同的网站反爬措施采取对应的解决措施,采集匹配页面结构化及非结构化数据,实现页面有效字段信息的入库存储,并对采集字段进行截取清洗,
规范一定的标准。

3.准备解决的问题:
    应对页面反爬,需要登录请求网站则模拟登录请求数据,js加载就分析获取指定url,ip限制则使用代理ip。
    规范造价网站表单数据抓去规则,规范字段标准。
    模拟请求参数实现翻页,分析header请求获取关键value值。
    配置scrapy中间件模块下载网站文件及图片。
    配置smtp邮件提醒功能。
    设置单线程调度执行爬虫程序。

拟采取的方法、技术或设计(开发)工具:

  方法及技术:Python + Scrapy框架 、mysql、Thread(单线程)、Scrapyd、Gerapy、SMTP
  工具:Navicat、Pycharm(python3)、代理ip软件


原文地址:https://www.cnblogs.com/lvjing/p/10160922.html