爬虫开头

通过URL去访问另一台计算机

1、理解URL ： HTTP协议的URL 文件中的URL

2、网页抓取，就是把URL 地址中指定的网络资源从网络流中读取出来，保存到本地。
类似于使用程序模拟IE 浏览器的功能，把URL 作为HTTP 请求的内容发送到服务器端，
然后读取服务器端的响应资源。

Java 语言是为网络而生的编程语言，它把网络资源看成是一种文件，它对网络资源的
访问和对本地文件的访问一样方便。它把请求和响应封装为流。因此我们可以根据相应内
容，获得响应流，之后从流中按字节读取数据---------按字节读取？

3、 java.net.URL 类可以对相应的Web服务器发出请求并且获得响应文档

//---java.net.URL 类有一个默认的构造函数，使用URL 地址作为参数，构造URL 对象：

String path="http://i.cnblogs.com"; //URL路径

URL pageurl=new URL(path);//创建一个URL对象

InputStream stream=pageurl.openStream(); //获得响应流

4、在实际的项目中，网络环境比较复杂，因此，只用java.net 包中的API 来模拟IE 客户
端的工作，代码量非常大。需要处理HTTP 返回的状态码，设置HTTP 代理，处理HTTPS
协议等工作。为了便于应用程序的开发，实际开发时常常使用Apache 的HTTP 客户端开源
项目——HttpClient。它完全能够处理HTTP 连接中的各种问题，使用起来非常方便。只需
在项目中引入HttpClient.jar 包，就可以模拟IE 来获取网页内容

//--------HttpClient.jar包相当构建一个浏览器