Jsoup入门学习一

1、Jsoup是一款Java 的HTML解析器,可直接解析某个URL地址、HTML文本内容。它提供了一套非常省力的API,可通过DOM,CSS以及类似于jQuery的操作方法来取出和操作数据。

2、Jsoup 的主要功能,如下所示:

  1)、从一个URL,文件或字符串中解析HTML;
  2)、使用DOM或CSS选择器来查找、取出数据;
  3)、可操作HTML元素、属性、文本;
  4)、Jsoup 是基于MIT协议发布的,可放心使用于商业项目。

3、httpClient 结合Jsoup 获取到网页内容进行解析,首先需要引入httpClient和Jsoup的依赖,如下所示:

 1 <project xmlns="http://maven.apache.org/POM/4.0.0"
 2     xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
 3     xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 
 4       http://maven.apache.org/xsd/maven-4.0.0.xsd">
 5     <modelVersion>4.0.0</modelVersion>
 6 
 7     <groupId>com.bie</groupId>
 8     <artifactId>jsoup</artifactId>
 9     <version>0.0.1-SNAPSHOT</version>
10     <packaging>jar</packaging>
11 
12     <name>jsoup</name>
13     <url>http://maven.apache.org</url>
14 
15     <properties>
16         <project.build.sourceEncoding>UTF-8</project.build.sourceEncoding>
17     </properties>
18 
19     <dependencies>
20         <!-- 添加httpclient支持 -->
21         <dependency>
22             <groupId>org.apache.httpcomponents</groupId>
23             <artifactId>httpclient</artifactId>
24             <version>4.5.2</version>
25         </dependency>
26         <!-- jsoup版本依赖 -->
27         <dependency>
28             <groupId>org.jsoup</groupId>
29             <artifactId>jsoup</artifactId>
30             <version>1.8.3</version>
31         </dependency>
32     </dependencies>
33 </project>

虽然使用Jsoup可以替代HttpClient直接发起请求解析数据,但是往往不会这样用,因为实际的开发过程中,需要使用到多线程,连接池,代理等等技术,而jsoup对这些技术的支持并不是很好,所以jsoup一般仅仅作为Html解析工具使用。

 1 package com.bie.spider.jsoup;
 2 
 3 import java.io.File;
 4 import java.io.IOException;
 5 import java.net.MalformedURLException;
 6 import java.net.URL;
 7 
 8 import org.apache.commons.io.FileUtils;
 9 import org.jsoup.Jsoup;
10 import org.jsoup.nodes.Document;
11 import org.jsoup.nodes.Element;
12 
13 /**
14  * 
15  * @author
16  *
17  */
18 public class JsoupDocument {
19 
20     /**
21      * 虽然使用Jsoup可以替代HttpClient直接发起请求解析数据,但是往往不会这样用,
22      * 因为实际的开发过程中,需要使用到多线程,连接池,代理等等技术,
23      * 而jsoup对这些技术的支持并不是很好, 所以jsoup一般仅仅作为Html解析工具使用
24      * 
25      * @throws MalformedURLException
26      * @throws IOException
27      */
28     public static void inputUrl() throws MalformedURLException, IOException {
29         // Jsoup可以直接输入url,它会发起请求并获取数据,封装为Document对象
30         // 使用jsoup解析url
31         Document doc = Jsoup.parse(new URL("https://www.autohome.com.cn/bestauto/"), 10000);
32 
33         // 把获取的内容输出为文件
34         FileUtils.writeStringToFile(new File("D:/test.html"), doc.toString(), "UTF-8");
35 
36         // 获取title
37         Element element = doc.getElementsByTag("title").first();
38 
39         // 打印title内容
40         System.out.println(element.text());
41     }
42 
43     /**
44      * 输入字符串,Jsoup可以直接输入字符串,并封装为Document对象
45      * 
46      * @throws MalformedURLException
47      * @throws IOException
48      */
49     public static void inputCharacter() throws MalformedURLException, IOException {
50         // 读取文件,获取字符串
51         String html = FileUtils.readFileToString(new File("D:/test.html"), "UTF-8");
52 
53         // 解析字符串
54         Document doc = Jsoup.parse(html);
55 
56         // 获取title标签
57         Element element = doc.getElementsByTag("title").first();
58 
59         // 打印title内容
60         System.out.println(element.text());
61     }
62 
63     /**
64      * 输入文件,Jsoup可以直接输入文件,并封装为Document对象
65      * 
66      * @throws MalformedURLException
67      * @throws IOException
68      */
69     public static void inputFile() throws MalformedURLException, IOException {
70         // 使用jsoup解析文件
71         Document doc = Jsoup.parse(new File("D:/test.html"), "UTF-8");
72 
73         // 获取title标签
74         Element element = doc.getElementsByTag("title").first();
75 
76         // 打印title内容
77         System.out.println(element.text());
78     }
79 
80     public static void main(String[] args) throws MalformedURLException, IOException {
81         // 输入url
82         inputUrl();
83         // 输入字符串
84         inputCharacter();
85         // 输入文件
86         inputFile();
87     }
88 
89 }

httpClient 结合Jsoup 获取到网页内容进行解析,具体代码,如下所示:

 1 package com.bie.jsoup;
 2 
 3 import java.io.IOException;
 4 
 5 import org.apache.http.Header;
 6 import org.apache.http.HttpEntity;
 7 import org.apache.http.ParseException;
 8 import org.apache.http.StatusLine;
 9 import org.apache.http.client.ClientProtocolException;
10 import org.apache.http.client.methods.CloseableHttpResponse;
11 import org.apache.http.client.methods.HttpGet;
12 import org.apache.http.impl.client.CloseableHttpClient;
13 import org.apache.http.impl.client.HttpClients;
14 import org.apache.http.util.EntityUtils;
15 import org.jsoup.Jsoup;
16 import org.jsoup.nodes.Document;
17 import org.jsoup.nodes.Element;
18 import org.jsoup.select.Elements;
19 
20 public class HttpClientToJsoup {
21 
22     // 设置请求头消息 User-Agent 模拟浏览器
23     private static String UserAgent = "Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:83.0) Gecko/20100101 Firefox/83.0";
24 
25     /**
26      * HttpGet请求操作
27      */
28     public static void httpGetRequest() {
29         // 第一步,获取到httpClient客户端实例,获取到一个可关闭的httpClient客户端实例。
30         CloseableHttpClient httpClient = HttpClients.createDefault();
31         // 第二步,创建HttpGet或者HttpPost实例。
32         String uri = "https://www.cnblogs.com/biehongli";
33         HttpGet httpGet = new HttpGet(uri);
34         // 设置请求头消息 User-Agent 模拟浏览器
35         httpGet.setHeader("User-Agent", UserAgent);
36 
37         // 定义一个可响应的实例对象。
38         CloseableHttpResponse response = null;
39         try {
40             // 第三步,发布一个请求,使用httpClient实例发送一个http协议的Get请求。
41             response = httpClient.execute(httpGet);
42             // 获取到响应的状态
43             StatusLine statusLine = response.getStatusLine();
44             System.out.println("响应状态: " + statusLine.toString() + ", 响应码: " + statusLine.getStatusCode());
45         } catch (ClientProtocolException e) {
46             // http协议异常
47             e.printStackTrace();
48         } catch (IOException e) {
49             // io异常
50             e.printStackTrace();
51         }
52         // 第四步,获取到返回的实体对象
53         HttpEntity entity = response.getEntity();
54         // 获取响应内容类型 Content-Type,获取到响应类型,从而过滤一些不想要的东西
55         Header contentType = entity.getContentType();
56         // 打印响应信息
57         System.out.println("name : " + contentType.getName() + " , value: " + contentType.getValue());
58 
59         // 将返回结果转换为字符串进行查看(网页内容),参数一是请求返回的entity,参数二是字符集编码
60         String result = null;
61         try {
62             result = EntityUtils.toString(entity, "UTF-8");
63         } catch (ParseException e) {
64             e.printStackTrace();
65         } catch (IOException e) {
66             e.printStackTrace();
67         }
68         // 打印请求返回的结果
69         // System.out.println(result.toString());
70 
71         // 讲获取到网页转换成为jsoup进行处理,返回结果为Document文档
72         Document document = Jsoup.parse(result);
73         Elements elements = document.getElementsByTag("title");
74         Element element = elements.get(0);
75         System.out.println("获取到的标题內容: " + element.text().toString());
76 
77         // 获取到自己的博客题目名称内容
78         Elements elementsByClass = document.getElementsByClass("postTitle2");
79         for (Element e : elementsByClass) {
80             System.out.println("获取到的标题内容是: " + e.text());
81         }
82 
83         // 第五步,关闭流,释放资源
84         try {
85             response.close();
86             httpClient.close();
87         } catch (IOException e) {
88             e.printStackTrace();
89         }
90     }
91 
92     public static void main(String[] args) {
93         HttpClientToJsoup.httpGetRequest();
94     }
95 
96 }

4、Jsoup的主要作用是,用HttpClient获取到网页后,具体的网页提取需要的信息的时候 ,就用到Jsoup,Jsoup可以使用强大的类似Jquery,css选择器,来获取需要的数据;

Jsoup官方地址:https://jsoup.org/
Jsoup最新下载:https://jsoup.org/download
Jsoup学习文档:https://jsoup.org/cookbook/introduction/parsing-a-document

5、Jsoup查找DOM元素的主要方法,如下所示:

  1)、getElementById(String id) 根据 id 来查询 DOM。
  2)、getElementsByTag(String tagName) 根据 tag 名称来查询 DOM。
  3)、getElementsByClass(String className) 根据样式名称来查询 DOM。
  4)、getElementsByAttribute(String key) 根据属性名,标签的属性元素来查询 DOM。
  5)、getElementsByAttributeValue(String key,String value) 根据属性名和属性值来查询 DOM。

如果满足不了自己的需求,可以使用Jsoup 的选择器语法查找 DOM 元素,如下所示:

  1 package com.bie.jsoup;
  2 
  3 import java.io.IOException;
  4 
  5 import org.apache.http.Header;
  6 import org.apache.http.HttpEntity;
  7 import org.apache.http.ParseException;
  8 import org.apache.http.StatusLine;
  9 import org.apache.http.client.ClientProtocolException;
 10 import org.apache.http.client.methods.CloseableHttpResponse;
 11 import org.apache.http.client.methods.HttpGet;
 12 import org.apache.http.impl.client.CloseableHttpClient;
 13 import org.apache.http.impl.client.HttpClients;
 14 import org.apache.http.util.EntityUtils;
 15 import org.jsoup.Jsoup;
 16 import org.jsoup.nodes.Document;
 17 import org.jsoup.nodes.Element;
 18 import org.jsoup.select.Elements;
 19 
 20 public class HttpClientToJsoup {
 21 
 22     // 设置请求头消息 User-Agent 模拟浏览器
 23     private static String UserAgent = "Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:83.0) Gecko/20100101 Firefox/83.0";
 24 
 25     /**
 26      * HttpGet请求操作
 27      */
 28     public static void httpGetRequest() {
 29         // 第一步,获取到httpClient客户端实例,获取到一个可关闭的httpClient客户端实例。
 30         CloseableHttpClient httpClient = HttpClients.createDefault();
 31         // 第二步,创建HttpGet或者HttpPost实例。
 32         String uri = "https://www.cnblogs.com/biehongli";
 33         HttpGet httpGet = new HttpGet(uri);
 34         // 设置请求头消息 User-Agent 模拟浏览器
 35         httpGet.setHeader("User-Agent", UserAgent);
 36 
 37         // 定义一个可响应的实例对象。
 38         CloseableHttpResponse response = null;
 39         try {
 40             // 第三步,发布一个请求,使用httpClient实例发送一个http协议的Get请求。
 41             response = httpClient.execute(httpGet);
 42             // 获取到响应的状态
 43             StatusLine statusLine = response.getStatusLine();
 44             System.out.println("响应状态: " + statusLine.toString() + ", 响应码: " + statusLine.getStatusCode());
 45         } catch (ClientProtocolException e) {
 46             // http协议异常
 47             e.printStackTrace();
 48         } catch (IOException e) {
 49             // io异常
 50             e.printStackTrace();
 51         }
 52         // 第四步,获取到返回的实体对象
 53         HttpEntity entity = response.getEntity();
 54         // 获取响应内容类型 Content-Type,获取到响应类型,从而过滤一些不想要的东西
 55         Header contentType = entity.getContentType();
 56         // 打印响应信息
 57         System.out.println("name : " + contentType.getName() + " , value: " + contentType.getValue());
 58 
 59         // 将返回结果转换为字符串进行查看(网页内容),参数一是请求返回的entity,参数二是字符集编码
 60         String result = null;
 61         try {
 62             result = EntityUtils.toString(entity, "UTF-8");
 63         } catch (ParseException e) {
 64             e.printStackTrace();
 65         } catch (IOException e) {
 66             e.printStackTrace();
 67         }
 68         // 打印请求返回的结果
 69         // System.out.println(result.toString());
 70 
 71         // 讲获取到网页转换成为jsoup进行处理,返回结果为Document文档
 72         Document document = Jsoup.parse(result);
 73         Elements elements = document.getElementsByTag("title");
 74         Element element = elements.get(0);
 75         System.out.println("获取到的标题內容: " + element.text().toString());
 76 
 77         // 通过选择器查找所有博客链接DOM,获取到自己的博客题目名称内容
 78         // 使用Jsoup的选择器
 79         Elements select = document.select("#centercontent .day .postTitle .postTitle2");
 80         for (Element e : select) {
 81             System.out.println("博客标题:" + e.text());
 82         }
 83 
 84         // 带有href属性的a元素
 85         Elements selectHref = document.select(".postTitle a[href]");
 86         for (Element e : selectHref) {
 87             System.out.println("博客标题:" + e.text());
 88         }
 89 
 90         // 查找扩展名为.png的图片DOM节点
 91         Elements imgElements = document.select("img[src$=.png]");
 92         for (Element e : imgElements) {
 93             System.out.println(e.toString());
 94         }
 95 
 96         // 获取tag是title的所有DOM元素
 97         Element first = document.getElementsByTag("title").first();
 98         String title = first.text(); // 返回元素的文本
 99         System.out.println("网页标题是:" + title);
100 
101         // 第五步,关闭流,释放资源
102         try {
103             response.close();
104             httpClient.close();
105         } catch (IOException e) {
106             e.printStackTrace();
107         }
108     }
109 
110     public static void main(String[] args) {
111         HttpClientToJsoup.httpGetRequest();
112     }
113 
114 }

6、使用选择器语法查找元素,Jsoup elements对象支持类似于CSS (或jquery)的选择器语法,来实现非常强大和灵活的查找功能。这个select 方法在Document, Element,或Elements对象中都可以使用。且是上下文相关的,因此可实现指定元素的过滤,或者链式选择访问。Select方法将返回一个Elements集合,并提供一组方法来抽取和处理结果。如下所示:

  1 package com.bie.jsoup;
  2 
  3 import java.io.IOException;
  4 
  5 import org.apache.http.Header;
  6 import org.apache.http.HttpEntity;
  7 import org.apache.http.ParseException;
  8 import org.apache.http.StatusLine;
  9 import org.apache.http.client.ClientProtocolException;
 10 import org.apache.http.client.methods.CloseableHttpResponse;
 11 import org.apache.http.client.methods.HttpGet;
 12 import org.apache.http.impl.client.CloseableHttpClient;
 13 import org.apache.http.impl.client.HttpClients;
 14 import org.apache.http.util.EntityUtils;
 15 import org.jsoup.Jsoup;
 16 import org.jsoup.nodes.Document;
 17 import org.jsoup.nodes.Element;
 18 import org.jsoup.select.Elements;
 19 
 20 public class HttpClientToJsoup {
 21 
 22     // 设置请求头消息 User-Agent 模拟浏览器
 23     private static String UserAgent = "Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:83.0) Gecko/20100101 Firefox/83.0";
 24 
 25     /**
 26      * HttpGet请求操作
 27      */
 28     public static void httpGetRequest() {
 29         // 第一步,获取到httpClient客户端实例,获取到一个可关闭的httpClient客户端实例。
 30         CloseableHttpClient httpClient = HttpClients.createDefault();
 31         // 第二步,创建HttpGet或者HttpPost实例。
 32         String uri = "https://www.cnblogs.com/biehongli";
 33         HttpGet httpGet = new HttpGet(uri);
 34         // 设置请求头消息 User-Agent 模拟浏览器
 35         httpGet.setHeader("User-Agent", UserAgent);
 36 
 37         // 定义一个可响应的实例对象。
 38         CloseableHttpResponse response = null;
 39         try {
 40             // 第三步,发布一个请求,使用httpClient实例发送一个http协议的Get请求。
 41             response = httpClient.execute(httpGet);
 42             // 获取到响应的状态
 43             StatusLine statusLine = response.getStatusLine();
 44             System.out.println("响应状态: " + statusLine.toString() + ", 响应码: " + statusLine.getStatusCode());
 45         } catch (ClientProtocolException e) {
 46             // http协议异常
 47             e.printStackTrace();
 48         } catch (IOException e) {
 49             // io异常
 50             e.printStackTrace();
 51         }
 52         // 第四步,获取到返回的实体对象
 53         HttpEntity entity = response.getEntity();
 54         // 获取响应内容类型 Content-Type,获取到响应类型,从而过滤一些不想要的东西
 55         Header contentType = entity.getContentType();
 56         // 打印响应信息
 57         System.out.println("name : " + contentType.getName() + " , value: " + contentType.getValue());
 58 
 59         // 将返回结果转换为字符串进行查看(网页内容),参数一是请求返回的entity,参数二是字符集编码
 60         String result = null;
 61         try {
 62             result = EntityUtils.toString(entity, "UTF-8");
 63         } catch (ParseException e) {
 64             e.printStackTrace();
 65         } catch (IOException e) {
 66             e.printStackTrace();
 67         }
 68         // 打印请求返回的结果
 69         // System.out.println(result.toString());
 70 
 71         // 讲获取到网页转换成为jsoup进行处理,返回结果为Document文档
 72         Document document = Jsoup.parse(result);
 73 
 74         // Jsoup 使用selector选择器
 75         Elements linkElements = document.select("#centercontent .day .postTitle .postTitle2"); // 通过选择器查找所有博客链接DOM
 76         for (Element e : linkElements) {
 77             System.out.println("博客标题:" + e.text());
 78             System.out.println("博客地址:" + e.attr("href"));
 79             // System.out.println("target:" + e.attr("target"));
 80         }
 81 
 82         // Jsoup 使用selector选择器
 83         Element linkElement = document.select(".postTitle2").first();
 84         System.out.println("纯文本内容:" + linkElement.text());
 85         System.out.println("Html内容:" + linkElement.html());
 86 
 87         // 第五步,关闭流,释放资源
 88         try {
 89             response.close();
 90             httpClient.close();
 91         } catch (IOException e) {
 92             e.printStackTrace();
 93         }
 94     }
 95 
 96     public static void main(String[] args) {
 97         HttpClientToJsoup.httpGetRequest();
 98     }
 99 
100 }
 1 1、Selector选择器概述,如下所示:
 2 1)、tagname: 通过标签查找元素,比如:a。
 3 2)、ns|tag: 通过标签在命名空间查找元素,比如:可以用 fb|name 语法来查找 <fb:name> 元素。
 4 3)、#id: 通过ID查找元素,比如:#logo。
 5 4)、.class: 通过class名称查找元素,比如:.masthead。
 6 5)、[attribute]: 利用属性查找元素,比如:[href]。
 7 6)、[attr=value]: 利用属性值来查找元素,比如:[width=500]。
 8 
 9 
10 // 案例使用,使用选择器
11 // tagname: 通过标签查找元素,比如:a
12 str = doc.select("a").first().text();
13 
14 // ns|tag: 通过标签在命名空间查找元素,比如:可以用 fb|name 语法来查找 <fb:name> 元素
15 str = doc.select("jsoup|li").first().text();
16 
17 // #id: 通过ID查找元素,比如:#logo
18 str = doc.select("#auto-header-fenzhan").first().text();
19 
20 // .class: 通过class名称查找元素,比如:.masthead
21 str = doc.select(".orangelink").first().text();
22 
23 // [attribute]: 利用属性查找元素,比如:[href]
24 str = doc.select("[abc]").first().text();
25 
26 // [attr=value]: 利用属性值来查找元素,比如:[width=500]
27 str = doc.select("[class=vlli]").first().text();
28 
29 
30 2、Selector选择器组合使用,如下所示:
31 1)、el#id: 元素+ID,比如: div#logo。
32 2)、el.class: 元素+class,比如: div.masthead。
33 3)、el[attr]: 元素+属性名,比如: a[href]。
34 4)、任意组合,比如:a[href].highlight。
35 5)、ancestor child: 查找某个元素下子元素,比如:.body p 查找"body"下的所有 p。
36 6)、parent > child: 查找某个父元素下的直接子元素,比如:div.content > p 查找 p。
37 7)、parent > * 查找某个父元素下所有直接子元素。
38 
39 
40 // 案例使用,组合选择器
41 // el#id: 元素+ID,比如: div#logo
42 str = doc.select("li#auto-header-fenzhan").first().text();
43 
44 // el.class: 元素+class,比如: div.masthead
45 str = doc.select("a.greylink").first().text();
46 
47 // el[attr]: 元素+属性,比如: a[href]
48 str = doc.select("a[href]").first().attr("href");
49 
50 // 任意组合,比如:a[href].highlight
51 str = doc.select("a[href].greylink").first().attr("href");
52 
53 // ancestor child: 查找某个元素下子元素,比如:可以用.body p 查找"body"下的所有 p
54 str = doc.select("div.mini-left a").text();
55 
56 // parent > child: 查找某个父元素下的直接子元素,比如:div.content > p 查找 p
57 str = doc.select("div.mini-left ul > li").text();
58 
59 // parent > * 查找某个父元素下所有直接子元素
60 Elements elements = doc.select("div.mini-left > *");
61 for (Element ele : elements) {
62     System.out.println(ele.tagName());
63 }
原文地址:https://www.cnblogs.com/biehongli/p/14059977.html