Jsoup 学习笔记

Jsoup 是一个用于处理真实 HTML 的 Java 库。它提供了一个非常方便的 API，用于提取和操作数据。
GitHub 地址：https://github.com/jhy/jsoup/
jar 包下载地址：https://jsoup.org/download

解析

Jsoup 可以有多种方式来解析 HTML。

HTML 的字符串；
URL；
本地文件；

HTML 的字符串解析

如果有一段 html 格式的字符串并且想解析里面的内容那么就可以使用 Jsoup.parse(String html); 静态方法，返回的是 Document 对象。使用该对象就可解析了。

String html = "<html><head><title>First parse</title></head>"
  + "<body><p>Parsed HTML into a doc.</p></body></html>";
Document doc = Jsoup.parse(html);

URL 解析

如果需要从 web 端网络获取解析的话，可以使用 Jsoup.connect(String url); 静态方法，返回的是一个 Connection 对象并使用 get() 或 post() 方法提取和解析HTML文件。使用该对象就可解析了。（此方法仅支持Web URL http 和 https 协议）

Document doc = Jsoup.connect("http://example.com")
  .data("query", "Java")	// 请求参数
  .userAgent("Mozilla")		// 设置 User-Agent 
  .cookie("auth", "token")	// 设置 cookie
  .timeout(3000)			// 设置连接超时时间
  .post();		            // 使用 POST 方法访问 URL

本地文件解析

本地有一个 HTML 的文件使用静态 Jsoup.parse(File in, String charsetName, String baseUri) 方法。有一个重载方法 parse(File in, String charsetName) 使用文件的位置作为 baseUri。

File input = new File("/tmp/input.html");
// baseUri 解析器使用该参数在 <base href> 找到元素之前解析文档中的相对 URL 。如果您不关心这一点，则可以传递空字符串。
Document doc = Jsoup.parse(input, "UTF-8", "http://example.com/");

解析数据

DOM 解析

File input = new File("/tmp/input.html");
Document doc = Jsoup.parse(input, "UTF-8");

// 获得 id 为 content 的元素
Element content = doc.getElementById("content");
// 获得标签为 a 的所有元素
Elements links = content.getElementsByTag("a");
for (Element link : links) {
  // 获得 href 属性的值
  String linkHref = link.attr("href");
  // 返回文本
  String linkText = link.text();
}

以下是一些常用的 api 方法：

方法名	描述
getElementById(String id)	按 ID 查找元素
getElementsByTag(String tag)	使用指定的标签名称查找元素
getElementsByClass(String className)	查找具有此 Class 的元素
getElementsByAttribute(String key)	查找具有此属性集的元素

使用选择器解析

如果希望使用 CSS 或类似 jquery 的选择器语法来查找或操作元素。使用 Element.select(String selector) 和 Elements.select(String selector) 方法。

File input = new File("D:	est.html"); 
Document doc = Jsoup.parse(input,"UTF-8"); 
// 具有 href 属性的链接
Elements links = doc.select("a[href]"); 
// 所有 src 包含.png 的图片
Elements pngs = doc.select("img[src$=.png]");
// 找出所有 class=masthead 的元素
Element masthead = doc.select("div.masthead").first(); 
// 所有符合 <h3 class=r><a href="">...</a></h3> 的元素
Elements resultLinks = doc.select("h3.r > a");

选择器概述

参数	描述
ns\|ng	使用命名空间的标签定位，例如 fb:name 来查找 fb:name 元素
#id	使用元素 id 定位，例如 #logo
.class	使用元素的 class 属性定位，例如 .head
tagName	使用标签名来定位，例如div
[attribute]	使用元素的属性进行定位，例如 [href] 表示检索具有 href 属性的所有元素
[^attr]	使用元素的属性名前缀进行定位，例如 [^data-] 用来查找 HTML5 的 dataset 属性
[attr=value]	使用属性值进行定位，例如 [width=500] 定位所有 width 属性值为 500 的元素
[attr^=value]	属性以 value 开头
[attr$=value]	属性以 value 结尾
[attr*=value]	属性包含value
[attr~=regex]	使用正则表达式进行属性值的过滤，例如 img[src~=(?i).(png\|jpe?g)]
*	定位所有元素

选择器组合用法

参数	描述
el#id	定位 id 值某个元素，例如 a#logo 相当于
el.class	定位 class 为指定值的元素，例如 div.head相当于 xxxx
el[attr]	定位所有定义了某属性的元素，例如 a[href]
以上三个任意组合	例如 a[href]#logo 、a[name].outerlink
	以下五种是元素之间组合关系的选择器语法，其中包括父子关系、合并关系和层次关系。
ancestor child	祖先孩子，例如：div#page_wrapper div[class~=mainContent*]
parent > child	例如：div.infoSet > span
siblingA + siblingB	查找在A元素之前第一个同级元素B
siblingA ~ siblingX	查找A元素之前的同级X元素
el, el, el	多个选择器组合，查找匹配任一选择器的唯一元素

过滤用法

参数	描述
:lt(n)	例如 td:lt(3) 表示小于三列
:gt(n)	div p:gt(2) 表示 div 中包含 2 个以上的 p
:eq(n)	form input:eq(1) 表示只包含一个 input 的表单
:has(seletor)	div:has§ 表示包含了 p 元素的 div
:not(selector)	div:not(.logo) 表示不包含 class=logo 元素的所有 div 列表
:contains(text)	包含某文本的元素，不区分大小写，例如 p:contains(oschina)
:containsOwn(text)	文本信息完全等于指定条件的过滤
:matches(regex)	使用正则表达式进行文本过滤：div:matches((?i)login)
:matchesOwn(regex)	使用正则表达式找到自身的文本

修改数据

jsoup 可以对页面中的元素进行修改，例如：增加/删除元素属性等。只需要利用 jsoup 的选择器找出元素，然后就可以通过以上的方法来进行修改，除了无法修改标签名外（可以删除后再插入新的元素），包括元素的属性和文本都可以修改。

修改完直接调用 Element(s) 的 html() 方法就可以获取修改完的 HTML 文档。

// 为所有链接增加 rel=nofollow 属性
doc.select("div.comments a").attr("rel", "nofollow"); 
// 为所有链接增加 class=mylinkclass 属性
doc.select("div.comments a").addClass("mylinkclass"); 
// 删除所有图片的 onclick 属性
doc.select("img").removeAttr("onclick"); 
// 清空所有文本输入框中的文本
doc.select("input[type=text]").val("");

HTML 文档清理

jsoup 使用 Whitelist 类进行文本过滤（只允许部分允许的标签、属性通过），防止用户在页面中恶意插入脚本。

String unsafe = "<p><a href='http://www.oschina.net/' onclick='stealCookies()'> 
 开源中国社区 </a></p>"; 
String safe = Jsoup.clean(unsafe, Whitelist.basic()); 
 // 输出 : 
 // <p><a href="http://www.oschina.net/" rel="nofollow"> 开源中国社区 </a></p>

Whitelist 方法

方法名	简介
none()	只允许包含文本信息
basic()	允许的标签包括：a, b, blockquote, br, cite, code, dd, dl, dt, em, i, li, ol, p, pre, q, small, strike, strong, sub, sup, u, ul, 以及合适的属性
simpleText()	只允许 b, em, i, strong, u 这些标签
basicWithImages()	在 basic() 的基础上增加了图片
relaxed()	这个过滤器允许的标签最多，包括：a, b, blockquote, br, caption, cite, code, col, colgroup, dd, dl, dt, em, h1, h2, h3, h4, h5, h6, i, img, li, ol, p, pre, q, small, strike, strong, sub, sup, table, tbody, td, tfoot, th, thead, tr, u, ul
whitelist.addTags(String… tags)	非静态方法：添加允许的标签。可以使用removeTags删除
whitelist.addAttributes(String tag, String… attributes)	非静态方法：添加允许的属性，可以用removeAttributes删除