网页爬虫

最近在回顾正则表达式，正好想起一个比较有意思的小程序：爬虫。

爬虫，百度百科是这样说的：网络爬虫（又被称为网页蜘蛛，网络机器人，在FOAF社区中间，更经常的称为网页追逐者），是一种按照一定的规则，自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。

现在有这样一个需求：获取指定数据文本文件或网页上的所有邮箱地址

下面我们用代码实现一下：

首先，我们准备了这样的一份本地数据：mail.txt

wefdvavxzfaf zhangsan@sina.com
farefavdareraweqaee2
sdfdsaa yanping@163.com adf
sdfae
WEFEW
fae

下面是代码实现：

package com.shindo.java.regex;
import java.io.*;
import java.net.*;
import java.util.regex.*;
/**
 * 网页爬虫（蜘蛛）
 * 需求：获取指定数据文本文件或网页上的所有邮箱地址
 */
public class WebCrawler {
    public static void main(String[] args)throws Exception{
        getMails();
//        getMials_1();
    }
    
    /*
     * 读取本地文本文件，获取其中所有邮箱地址
     */
    public static void getMails()throws Exception{
        //读取本地文件
        BufferedReader buf = new BufferedReader(new FileReader("F:\mail.txt"));
        
        String line = null;
        //定义邮箱的正则表达式
        String mailreg = "\w+@\w+(\.\w+)+";

        //将mailreg转换为Pattern对象
        Pattern p = Pattern.compile(mailreg);
        
        //一行行读取
        while((line = buf.readLine())!= null ){
            Matcher m = p.matcher(line);//对每一行进行匹配
            while(m.find()){
                System.out.println(m.group());//取数据
            }
        }
    }
    
    /**
     * 对网页中的数据进行筛选，爬出所有邮箱地址
     */
    public static void getMials_1()throws Exception{
        //获取网页链接
        URL url = new URL("网页地址");
        URLConnection conn = url.openConnection();
        
        BufferedReader bufIn = new BufferedReader(new InputStreamReader(conn.getInputStream()));
        
        String line = null;
        
        String mailreg = "\w+@\w+(\.\w+)+";
        
        Pattern p = Pattern.compile(mailreg);
        
        while((line = bufIn.readLine()) != null){
            Matcher m = p.matcher(line);
            while(m.find()){
                System.out.println(m.group());
            }
        }
    }
}

运行结果：