Chapter 6. Simple HTML Processing with Regular Expressions

Chapter 6. Simple HTML Processing with Regular Expressions


前几章都是从Web上得到东西,但是 一旦你要得到一个文件,你必须处理它,如果你得到一个GIF,


你会使用一些模块或挖补程序来读取GIFS ,同样的 如果你得到一个PNG,RSS文件或者MP3，或者其他的。

然而，在网上最重要的有趣的加工信息是HTML，那么这本书的其余部分将专注于将信息从HTML特别。



在这一章中,我们将使用一个基本的方法来处理HTML 资源: Perl的正则表达式,这种技术是强大的,

大多数网站可以用这种方式开采。我们提出了使用正则表达式来提取数据的技术，并向你展示如何调试那些正则表达式。从亚马

逊的例子，O'Reilly Network，Netscape书签文件，与地下气象网站显示技术。


6.1. Automating Data Extraction 数据自动提取

假设我们呀从Amazon 图书页面中提取数据,第一个问题是得到HTML。浏览亚马逊表明一本书的页面的URL是

http://www.amazon.com/exec/obidos/asin/isbn ISBN，哪里是本书独特的国际标准图书编号。所以拿Perl食谱的网页，例如

#!/usr/bin/perl -w
use strict;
use LWP::Simple;

my $html = get("http://www.amazon.com/exec/obidos/ASIN/1565922433")
  or die "Couldn't fetch the Perl Cookbook's page.";
The relevant piece of HTML looks like this:

<br clear="left">
<FONT FACE="Arial,Helvetica" size=2>
<b>Paperback</b>
- 794 pages (August 1998)
<br></font>
<font face="Arial,Helvetica" size=-2>
O'Reilly & Associates; </font>
<font face="Arial,Helvetica" size=-2>
ISBN: 1565922433
; Dimensions (in inches): 1.55 x 9.22 x 7.08
<br>
<FONT FACE="Arial,Helvetica" size=2>
</font><br>
</font>
</span>
<font face=verdana,arial,helvetica size=-1>
<b>Amazon.com Sales Rank: </b> 4,070 </font><br>
<font face=verdana,arial,helvetica size=-1>