HttpClient配置及运用(二)

4.获取响应状态Status信息、获取状态码Status Code

一般服务器的响应状态有以下几种:

200 正常

400 未找到页面

403 拒绝

500 服务器错误

比如我们请求bootstrap中文网,

我们现在代码中获取状态码:

public class Demo {
    public static void main(String[] args) throws Exception {
        CloseableHttpClient closeableHttpClient=HttpClients.createDefault(); //1、创建实例
        HttpGet httpGet=new HttpGet("http://www.bootcss.com"); //2、创建请求
         
        httpGet.setHeader("User-Agent", "Mozilla/5.0 (Windows NT 5.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/38.0.2125.122 Safari/537.36 SE 2.X MetaSr 1.0");
         
        CloseableHttpResponse closeableHttpResponse=closeableHttpClient.execute(httpGet); //3、执行
        HttpEntity httpEntity=closeableHttpResponse.getEntity(); //4、获取实体
         
        System.out.println(closeableHttpResponse.getStatusLine()); //获取状态码
         
        closeableHttpResponse.close();
        closeableHttpClient.close();
    }
}

运行结果:HTTP/1.1 200 OK

接下来我们访问一个不存在的页面:

HttpGet httpGet=new HttpGet("http://www.huimsoft.com/x/x.html");

运行结果:HTTP/1.1 404 Not Found

5.HttpClient请求服务器图片

我们先引入一个IO流相关的Jar包,

从apache下载

之后引入项目

我们将请求的图片保存在本地磁盘

package com.zhi.httpClient3;
 
import java.io.File;
import java.io.InputStream;
 
import org.apache.commons.io.FileUtils;
import org.apache.http.HttpEntity;
import org.apache.http.client.methods.CloseableHttpResponse;
import org.apache.http.client.methods.HttpGet;
import org.apache.http.impl.client.CloseableHttpClient;
import org.apache.http.impl.client.HttpClients;
 
public class Demo {
    public static void main(String[] args) throws Exception {
        CloseableHttpClient closeableHttpClient=HttpClients.createDefault(); //1、创建实例
        HttpGet httpGet=new HttpGet("http://static.bootcss.com/www/assets/img/codeguide.png?1505127079951"); //2、创建请求
         
        CloseableHttpResponse closeableHttpResponse=closeableHttpClient.execute(httpGet); //3、执行
        HttpEntity httpEntity=closeableHttpResponse.getEntity(); //4、获取实体
         
        if(httpEntity!=null){
            System.out.println("ContentType:"+httpEntity.getContentType().getValue());
            InputStream inputStream=httpEntity.getContent();
            FileUtils.copyToFile(inputStream, new File("D://xxx.png")); //将图片保存在本次磁盘D盘,命名为xxx.png
        }
             
        closeableHttpResponse.close();
        closeableHttpClient.close();
    }
}

运行后,D盘里会增加一个图片文件。

同理,jpg和gif也可以进行抓取后保存在本地。

6.使用代理IP、高匿IP、连接失败

我们使用代理IP就是因为某些站点会屏蔽我们的IP,所以我们要动态的更换代理IP。

其中我们首先选择国内的IP,国外的一般都比较慢,其次不要选择如{新疆乌鲁木齐}等这样的偏远地区,尽量选用一二线城市的IP

关于代理IP的话 也分几种 透明代理、匿名代理、混淆代理、高匿代理

1、透明代理(Transparent Proxy)

REMOTE_ADDR = Proxy IP

HTTP_VIA = Proxy IP

HTTP_X_FORWARDED_FOR = Your IP

透明代理虽然可以直接“隐藏”你的IP地址,但是还是可以从HTTP_X_FORWARDED_FOR来查到你是谁。

2、匿名代理(Anonymous Proxy)

REMOTE_ADDR = proxy IP

HTTP_VIA = proxy IP

HTTP_X_FORWARDED_FOR = proxy IP

匿名代理比透明代理进步了一点:别人只能知道你用了代理,无法知道你是谁。

3、混淆代理(Distorting Proxies)

REMOTE_ADDR = Proxy IP

HTTP_VIA = Proxy IP

HTTP_X_FORWARDED_FOR = Random IP address

与匿名代理相同,如果使用了混淆代理,别人还是能知道你在用代理,但是会得到一个假的IP地址,伪装的更逼真。

4、高匿代理(Elite proxy或High Anonymity Proxy)

REMOTE_ADDR = Proxy IP

HTTP_VIA = not determined

HTTP_X_FORWARDED_FOR = not determined

可以看出来,高匿代理让别人根本无法发现你是在用代理,所以是最好的选择。

一般我们使用高匿的代理IP。

public class Demo {
    public static void main(String[] args) throws Exception {
        CloseableHttpClient closeableHttpClient=HttpClients.createDefault(); //1、创建实例
        HttpGet httpGet=new HttpGet("http://www.bootcss.com/"); //2、创建实例
         
        HttpHost proxy=new HttpHost("114.219.61.82", 8118);
        RequestConfig config=RequestConfig.custom().setProxy(proxy).build();
        httpGet.setConfig(config);
         
        CloseableHttpResponse closeableHttpResponse=closeableHttpClient.execute(httpGet); //3、执行
        HttpEntity httpEntity=closeableHttpResponse.getEntity(); //4、获取实体
         
        //System.out.println(httpEntity.toString());
        System.out.println(EntityUtils.toString(httpEntity, "utf-8")); //获取网页内容
         
        closeableHttpResponse.close();
        closeableHttpClient.close();
    }
}

加入IP失效了,或者我们写错了端口号,

那么会输出连接失败信息

7.连接超时(connect timed out)和读取超时(Read timed out)

设置连接超时和读取超时方法:

RequestConfig config=RequestConfig.custom()
                .setConnectTimeout(10000) // 设置连接超时时间 10秒钟
                .setSocketTimeout(10000) // 设置读取超时时间10秒钟
                .build();

HttpClient连接时间

所谓连接的时候

是HttpClient发送请求的地方开始到连接上目标url主机地址的时间,

理论上是距离越短越快,线路越通畅越快,但是由于路由复杂交错,往往连接上的时间都不固定,运气不好连不上,

HttpClient的默认连接时间,默认可能是1分钟,假如超过1分钟 过一会继续尝试连接,这样会有一个问题 假如遇到一个url老是连不上,会影响其他线程的线程进去,

所以我们有必要进行特殊设置,比如设置10秒钟 假如10秒钟没有连接上 我们就报错,这样我们就可以进行业务上的处理,

比如我们业务上控制 过会再连接试试看。并且这个特殊url写到log4j日志里去。方便管理员查看。

HttpClient读取时间

所谓读取的时间 是HttpClient已经连接到了目标服务器,然后进行内容数据的获取,一般情况 读取数据都是很快速的,

但是假如读取的数据量大,或者是目标服务器本身的问题(比如读取数据库慢,并发量大等...)也会影响读取时间。

我们还是需要来特殊设置下,比如设置10秒钟 假如10秒钟还没读取完,就报错,同上,我们可以业务上处理。

原文地址:https://www.cnblogs.com/FrankLiner/p/7760829.html