document解析html

解决一个问题有很多方法,虽然可以达到同样的目的,但是过程却是相差胜远.比如:从HTML代码片段里面获取img属性的值

我刚刚开始使用的是正则表达式去匹配,代码如下:

/** 
     * 得到网页中图片的地址 
     * @param sets html字符串 
     */  
    public  Set<String> getImgStr(String htmlStr) {  
        Set<String> pics = new HashSet<String>();  
        String img = "";  
        Pattern p_image;  
        Matcher m_image;  
        String regEx_img = "<img.*src\s*=\s*(.*?)[^>]*?>";  
        p_image = Pattern.compile(regEx_img, Pattern.CASE_INSENSITIVE);  
        m_image = p_image.matcher(htmlStr);  
        while (m_image.find()) {  
            // 得到<img />数据  
            img = m_image.group();  
            // 匹配<img>中的src数据  
            Matcher m = Pattern.compile("src\s*=\s*"?(.*?)("|>|\s+)").matcher(img);  
            while (m.find()) {  
                pics.add(m.group(1));  
            }  
        }  
        return pics;  
    }

运行过程中发现这种全字段去匹配的方式效率非常低,如果内容大点,会卡死.后面才知道java的document对象可以快速解析HTML代码

Document doc = Jsop.parse(htmlStr);
Elements imgNodeList = doc.select("img");
String src = "";
StringBuffer srcBase64s = new StringBuffer();
int n = 1;
for(Element imgNode : imgNodeList){
    src = imgNode.attr("src");
    if(src.contains("base64")){
        String srcBase64 = src.split(",")[1];
        if(n<imgNodeList).size()){
            srcBase64s.append(srcBase64).append(",");
            n++;
        }else{
            srcBase64s.append((srcBase64);
        }
    }
}
//转化为二进制存储,图片一般都是以二进制去存储的
Bytes.toBytes(srcBase64s.toString())

document是分节点去获取属性值,效率会高很多,其操作方式跟js,jQuery的方式类似,具体可以参照该https://blog.csdn.net/qq541976141/article/details/51162084博客