java获得采集网页内容的方法小结

为了写一个java的采集程序，从网上学习到3种方法可以获取单个网页内容的方法，主要是运用到是java IO流方面的知识，对其不熟悉，因此写个小结。

import java.io.BufferedReader;
import java.io.ByteArrayOutputStream;
import java.io.IOException;
import java.io.InputStreamReader;
import java.net.HttpURLConnection;
import java.net.URL;
import java.util.regex.Matcher;
import java.util.regex.Pattern;

public class Get_Html {
    public static void main(String[] args) throws Exception    {
    	long start= System.currentTimeMillis();
        String str_url="http://www.hiphop8.com/city/guangdong/guangzhou.php";
        Pattern p = Pattern.compile(">(13\d{5}|15\d{5}|18\d{5}|147\d{4})<");
	
        //String html = get_Html_2(str_url);
        //String html = get_Html_1(str_url);
        String html = get_Html_3(str_url);
        Matcher m = p.matcher(html);
        
        int num = 0;       
		while(m.find())
		{
			System.out.println("打印出的号码段落："+m.group(1)+"  编号"+(++num));	
		}
       System.out.println(num);       
       long end = System.currentTimeMillis();
		System.out.println("花费的时间"+(end-start)+"毫秒");
    } 
    public static String get_Html_2(String str_url) throws IOException{
    	URL url = new URL(str_url);
    	String content="";
		StringBuffer page = new StringBuffer();
		try {		
			BufferedReader in = new BufferedReader(new InputStreamReader(url
                    .openStream(), "utf-8"));			
			while((content = in.readLine()) != null){
				page.append(content);
			}
		} catch (IOException e) {
			// TODO Auto-generated catch block
			e.printStackTrace();
		}
        return page.toString();
    }
    
    public static String get_Html_1(String str_url) throws IOException{
        URL url = new URL(str_url);
        HttpURLConnection conn = (HttpURLConnection)url.openConnection();
        InputStreamReader input = new InputStreamReader(conn.getInputStream(), "utf-8");  
        BufferedReader bufReader = new BufferedReader(input);  
        String line = "";  
        StringBuilder contentBuf = new StringBuilder();  
        while ((line = bufReader.readLine()) != null) {  
            contentBuf.append(line);  
        }
        return contentBuf.toString();
    }
    
    /**
     * 通过网站域名URL获取该网站的源码
     * @param url
     * @return String
     * @throws Exception
     */
    public static String get_Html_3(String str_url) throws Exception    {
    	URL url = new URL(str_url);
        HttpURLConnection conn = (HttpURLConnection)url.openConnection();
        conn.setRequestMethod("GET");
        conn.setConnectTimeout(5 * 1000);                        //设置连接超时
        java.io.InputStream inStream = conn.getInputStream();  //通过输入流获取html二进制数据
              
        byte[] data = readInputStream(inStream);  //把二进制数据转化为byte字节数据
        String htmlSource = new String(data);
        return htmlSource;
    }
    
    /**
     * 把二进制流转化为byte字节数组
     * @param inStream
     * @return byte[]
     * @throws Exception
     */
    public static byte[] readInputStream(java.io.InputStream inStream) throws Exception {
        ByteArrayOutputStream outStream = new ByteArrayOutputStream();
        byte[]  buffer = new byte[1204];
        int len = 0;
        while ((len = inStream.read(buffer)) != -1){
            outStream.write(buffer,0,len);
        }
        inStream.close();
        return outStream.toByteArray();         
    } 
}

【分别测试6次的结果】不知道是不是获取的网页数量内容较小，采集效率差不多，不过方法2应该是最好最简便的。

//get_Html_1 967 2658 1132 1199 988 1236
//get_Html_2 2323 2244 1202 1166 1081 1011
//get_Html_3 978 1219 1527 1133 1192 1774

1、关于url .openStream()和conn.getInputStream()。

二者返回的的都是InputStrema对象，且都是通过openConnection()方法获取URLConnection对象，然后调用getInputStream()方法，所以方法2和方法1是一样的，但前者更方便。

2、关于BufferedReader类。

【该类的功能】：能将字符流放入缓冲区（内存中的一块小区域），以便实现高效的读取。

【看构造方法】：

BufferedReader(Reader in) 创建一个使用默认大小输入缓冲区来缓冲字符输入流。

BufferedReader(Reader in, int sz) 创建一个使用指定大小输入缓冲区的缓冲字符输入流。

【常用方法】：readLine()可以快速的实现文本字符的行读取。

3、关于InputStreamReader 类

InputStreamReader 是从字节流到字符流的桥梁：它读入字节，并根据指定的编码方式，将之转换为字符流，它是Reader的子类。

而为了达到更高效率，我们经常用 BufferedReader 封装 InputStreamReader ，所以我们经常看到的用法是

BufferedReader Buf = new BufferedReader(new InputStreamReader(System.in);

这里的InputStreamReader类的功能是将字节流转换为字符流，所以以上语句实现了：将 字节输入流 转换为 字符输入流 且放置缓冲区。

引用一张图：

4、关于 ByteArrayOutputStream类

它是OutputStream类的扩展类，其构造函数是byteArrayInputStream（byte []buf），作用是把字节数组buf 变成输入流的形式，并通过toString()或者toByteArray()方法或得想要的数据形式。方法3中的readInputStream方法可改为返回String类型，将后面的outStream.toByteArray()改为outStream.toString()方法，这样又精简了代码。

5、关于InputStream类

InputStream与OutputStream: 是 8位字节输入/输出流类的基类，主要用在处理二进制数据，它是按字节来处理的。文件在硬盘或在传输时都是以字节的方式进行的，包括图片等都是按字节的方式存储的，其余的字节流的处理类都是对该类的扩展，如等上面讲ByteArrayInputStream类。

由于InputStream.read()方法是每次从流里只读取读取一个字节，效率会非常低。而InputStream.read(byte[] b)或者InputStream.read(byte[] b,int off,int len)方法，一次可以读取多个字节，效率较高，所以方法3中创建了一个byte字节数组，以便一次性读取更多的字节。当read()方法读取内容为空的时候，返回-1.

另外字符输入输出流的基类 Reader/Writer，且要知道1个字符= 2字节，字符都是在内存中生成的，一个中文占两个字节，其子类包含有上面讲的的InputStreamRead类与BufferReader类。

写了几点总结，都是和java的IO流有关的，是不是应该改个标题，想想还是算了，毕竟采集程序中很重要的一部分就是IO流方面的，java在IO流方面提供了丰富的类库，边学边积累吧。