网页数据抽取的方法介绍

网页数据抽取的方法介绍
http://scholar.google.com/scholar?hl=zh-CN&lr=lang_zh-CN&newwindow=1&q=cache:TEq4wMcpnU4J:www.insun.hit.edu.cn/upfiles/at2004111118424287159.pdf+author:%22%3F%3F%3F+intitle:%22%E4%B8%80%E7%A7%8D%E6%96%B0%E7%9A%84%E5%9F%BA%E4%BA%8E%E7%BB%9F%E8%AE%A1%E7%9A%84%E8%87%AA

早期从网站上抽取信息的方法基本上是基于手工操作的。程序员认真研究网站的结构后手工编写代码，开发一个分装器程序，把网页的逻辑特征抽取出来并把他们存入到数据库。TSIMMIS[13，25，28，29]系统和“斯坦福-IBM多信息源管理系统（1995）”是比较早的帮助建造分装器程序的框架系统。TSIMMIS的目标是以一体化的方式获取不同信息源的信息并且保证所获取信息一致性。其重点是开发支持这种包装过程的语言和工具。对于数据量大，结构动态变化的网站而言，需要一种更为有效的分装器建造方法。一般说来，数据库领域的人把注意力放在错综复杂的信息如何进行整合，分装器则用手工建造。另一方面，AI领域的人则把重点放在机器学习的方法如何能用在网站结构的自动学习上。本章将重点介绍分装器的自动或半自动的生成系统。分装器及其自动生成的复杂度和难易度将取决于网站结构的层次。第4 .1.节介绍的系统主要是针对结构化程度相对好的网站。这类系统多数是源自分装器生成领域的研究者。第4.2.节介绍了能处理结构缺少规范化的网页。这类系统较多地受到传统的IE领域的影响。