知识管理系统Data Solution研发日记之十二 网页数据抓取Fetch,呈现Render,导出Export

这篇文章是对第四篇文章《知识管理系统Data Solution研发日记之四 片段式数据解决方案》的补充,提供一套完整的解决方案。请先阅读那一篇文章来了解它的原理。

Rule Editor抓取数据

image

这里,主要的工作是设定目标地址,正则表达式规则。我生活在深圳,对深圳的IT行业比较关注,所以经常看下面的地址,http://www.iteer.net/modules/xdirectory/viewcat.php?cid=217来了解深圳的IT公司现状。

经常想到把这些数据抓取到自己的电脑中,这也是制作Data Loader的一个原因。请设定一个测试的页面地址为http://www.iteer.net/modules/xdirectory/singlelink.php?cid=217&lid=2558,然后应用下面的正则表达式来抓取数据。

公司名称: <div\sclass="*company_title"*>(?<title>\w*)\s?<?

地址:</STRONG>(?<address>.*)\s*

规模:</STRONG>(?<count>.*)人

联系电话.* </STRONG>(?<tel>.*)\s*<br>?

传真.* </STRONG>(?<fax>.*)\s*<br>?

邮件 :Email.*</strong>.*mailto:(?<mail>\w*@.*)"

网站.*\s*</STRONG><A\s*href="(?<website>.*)"\s*target

评分:id=xspace-rates-tip>(?<rating>.*)</SPAN>

评论时间: class=comDateCaption>.*(?<time>\d{4}-\d{2}-\d{2})

这一步做好了,保存规则。再打开Segment Run来选择你需要运行的规则,后台启动分析下载程序。

Form Designer 设计数据呈现界面

这一节的内容,可以参考窗体设计器一章的主题,效果如下图所示

image

之后,打开Segment Explorer,浏览运行这个窗体。可以轻松的实现以自定义的方式浏览数据。

Data Explorer 数据导出

当您对数据的内容感兴趣后,您可能会想到把这些数据导出系统,以做进一步的加工处理。Data Explorer则可以达到这个目的,实现在数据的导出功能。导出格式为Excel和Xml。请看下图

image

在Setting中配置连接字符串,第一行的右边则显示这个连接字符串下面的表,选择你需要的表数据,显示数据。

最右下角有两个按钮,Export Xls和Export Xml用于实现导出数据。

在这里,还有一个复杂的功能正在开发中。当您在Grid中点击一笔数据时,它应该可以弹出一个窗体,这个窗体就是前面的Form Designer中设计的窗体,并且把数据传递到这个新窗体中,以Detail明细的方式显示数据,像这样的效果

image

在前面显示的窗体,以自定义窗体的方式显示出来。这样做出来,即可以用Data Explorer以网格形式显示数据,如果对明细感兴趣,又可以以单一窗体的形式显示数据。这两者的结合,我以为是数据呈现的最佳方式。

通过对这几个应用程序组的学习,您应该对数据的抓取,呈现,导出有了完整的认识。这就是我设计片断式数据的处理流程。它达到的效果,可以很轻松的对数据进行再加工,再处理,而不仅仅是限于下载。

请到epn.codeplex.com(http://epn.codeplex.com/releases/view/68647)中下载最新版的Data Loader。

原文地址:https://www.cnblogs.com/JamesLi2015/p/2254216.html