爬虫开头

通过URL去访问另一台计算机

1、理解URL : HTTP协议的URL 文件中的URL

2、网页抓取,就是把URL 地址中指定的网络资源从网络流中读取出来,保存到本地。
类似于使用程序模拟IE 浏览器的功能,把URL 作为HTTP 请求的内容发送到服务器端,
然后读取服务器端的响应资源。

  Java 语言是为网络而生的编程语言,它把网络资源看成是一种文件,它对网络资源的
访问和对本地文件的访问一样方便。它把请求和响应封装为流。因此我们可以根据相应内
容,获得响应流,之后从流中按字节读取数据---------按字节读取?

3、 java.net.URL 类可以对相应的Web服务器发出请求并且获得响应文档

//---java.net.URL 类有一个默认的构造函数,使用URL 地址作为参数,构造URL 对象:

String path="http://i.cnblogs.com"; //URL路径

URL pageurl=new URL(path);//创建一个URL对象

InputStream stream=pageurl.openStream(); //获得响应流

4、在实际的项目中,网络环境比较复杂,因此,只用java.net 包中的API 来模拟IE 客户
端的工作,代码量非常大。需要处理HTTP 返回的状态码,设置HTTP 代理,处理HTTPS
协议等工作。为了便于应用程序的开发,实际开发时常常使用Apache 的HTTP 客户端开源
项目——HttpClient。它完全能够处理HTTP 连接中的各种问题,使用起来非常方便。只需
在项目中引入HttpClient.jar 包,就可以模拟IE 来获取网页内容

//--------HttpClient.jar包 相当构建一个浏览器

原文地址:https://www.cnblogs.com/zzblee/p/3891295.html