xml解析

一、什么是XML?有什么用途

  1、XML全名为可扩展标记语言(eXtensible Markup Language),是w3c组织的一个技术规范,具有严格的数据格式,主要作用是描述数据并集中于数据的内容。

  2、XML的主要用途:

    ①作为小型数据库存储数据,office软件貌似就是这么用xml存储数据。

    ②作为配置文件,存储相关的配置信息,如spring、mybatis等框架的配置文件。

    ③作为传输数据的载体,如webservice。不过由于xml的数据格式冗余太多,没有json高效简洁。

二、XML的文档格式

  1、xml的文档声明 :<?xml version="1.0" encoding="GBK" standalone="yes"?>

    该声明不是必需,如果有则会在xml文档的第一行。  该声明有三个键值对,version表示版本号,encoding表示该文档使用的字符集编码,standalone表示是否可以在不读取其他文件的情况下处理该文档。

  2、xml注释 :<!-- 注释内容 -->

  3、标签  <标签><标签/> 、<标签/>

    ①标签区分大小写

    ②标签不能以数字或下划线开头、不能以xml开头、不能包含空格

    ③标签中所有的空格和换行都会当作标签内容来处理

  4、xml中的转义字符 

        

  5、 <![CDATA[内容]]>  将内容原样输出

三、XML约束

    如果一个XML文件的语法符合W3C的规范,这该XML是一个良好的XML。如果一个良好的XML通过了用户自定义的DTD和Schema的校验约束,则称这个XML为有效的XML。

     XML的约束分为两种,DTD约束和Schema约束

    1、DTD约束 : 文档类型定义(Document Type Definition,简称DTD)

      ①DTD的作用

        DTD定义了XML文档内容的结构,保证XML以一致的格式存储数据

        XML允许用户为应用程序创建自己的DTD

        通过DTD定义的词汇表以及文档语法,XML解析器可以检查XML文档内容的有效性

      ②如何引入DTD

        内部编写:      

<?xml version="1.0" encoding="UTF-8" standalone="yes"?>
<!DOCTYPE 班级 [
    <!ELEMENT 班级 (学生+)>
    <!ELEMENT 学生 (姓名,性别,年龄)>
    <!ELEMENT 姓名 (#PCDATA)>
    <!ELEMENT 性别 (#PCDATA)>
    <!ELEMENT 年龄 (#PCDATA)>
]>
<班级>
<学生> <姓名>小明</姓名> <性别></性别> <年龄>67</年龄> </学生> ... </班级>

        外部引入本地约束文件:<!DOCTYPE 文档根结点 SYSTEM "DTD文件的URL"> 

<?xml version="1.0" encoding="UTF-8"?>
<!DOCTYPE books SYSTEM "F:/eclipseWorkSpace/testProject/src/testxml/book.dtd">
<books>
    <book id="001" name="红楼梦">
        <price>10.0</price>
    </book>
    <book id="002" name="三国演义">
        <price>11.0</price>
    </book>
    <book id="003" name="西游记">
        <price>12.0</price>
    </book>
    <book id="004" name="水浒传">
        <price>13.0</price>
    </book>
</books>



<!--DTD约束文件book.dtd--> <?xml version="1.0" encoding="UTF-8" ?> <!ELEMENT books (book)?> <!ELEMENT book (price)?> <!ATTLIST book id ID #REQUIRED name CDATA #REQUIRED > <!ELEMENT price (#PCDATA)>

        外部引入公共约束文件:<!DOCTYPE 文档根结点 PUBLIC "DTD名称" "DTD文件的URL">

      ③DTD语法

        元素声明格式:<!ELEMENT 元素名称  元素类型>

          元素类型分类:

            EMPTY:不能有子元素,不能有文本数据,可以有属性

            #PCDATA:不能有子元素,只能有文本元素

            ANY:元素可以包含任意类型的元素,子元素、文本、空白

          带有子元素的元素配置方式:

            

        元素属性约束声明:

            <!ATTLIST 元素名

                           属性名1 属性值类型 设置说明

                           属性名2 属性值类型 设置说明

                           ……>

          属性值类型

            CDATA:普通文本字符串

            ENUMERATED:属性类型是一组列表,XML属性只能从中选择一个  如:<!ATTLIST 肉 品种 ( 鸡肉 | 牛肉 | 猪肉 | 鱼肉 ) "鸡肉">

            ID :属性的设置值为一个唯一值。属性的值只能由字母,下划线开始,不能出现空白字符。

          设置说明

            #REQUIRED 必须设置该属性

            #IMPLIED :可以设置也可以不设置

            #FIXED :该属性为一固定值。如:<!ATTLIST 姓名 帮派 CDATA  #FIXED "丐帮">

            直接使用默认值:在 XML 中可以设置该值也可以不设置该属性值。若没设置则使用默认值。如 <!ATTLIST 姓名 帮派 CDATA  "丐帮">

            

      ④Schema约束:

        XML也是一种定义和描述XML文档结构和内容的语言,其出现是为了克服DTD的局限性,其支持更多的数据类型,并支持用户自定义新的数据类型。

        XML Schema 文件自身就是一个XML文件,它的扩展名通常为.xsd。

        XML Schema对名称空间支持得非常好。

        一个XML Schema文档通常称之为模式文档(约束文档),遵循这个文档书写的xml文件称之为实例文档。

        编写了一个XML Schema约束文档后,通常需要把这个文件中声明的元素绑定到唯一的一个URI地址上,在XML Schema技术中有一个专业术语来描述这个过程,即把XML Schema文档声明的元素绑定到一个名称空间上,以后XML文件就可以通过这个URI(即名称空间)来告诉解析引擎,xml文档中编写的元素来自哪里,被谁约束。

四、XPath基本使用

  XPath是一种表达式语言,XPath 使用路径表达式来选取 XML 文档中的节点或节点集。节点是通过沿着路径 (path) 或者步 (steps) 来选取的。XPath是为了更快更好地选取我们想要选取的XML元素。

  

  

  

  

   

<?xml version="1.0" encoding="utf-8"?>
<学生列表> 
  <学生 学号="001"> 
    <姓名>郭靖</姓名>  
    <密码>123</密码>
    <性别></性别>  
    <年龄>30</年龄>  
    <师傅>江南七怪</师傅> 
  </学生>  
  <学生 学号="002"> 
    <姓名 帮派="丐帮">黄蓉</姓名>
    <密码>456</密码>  
    <性别></性别>  
    <年龄>20</年龄> 
  </学生> 
</学生列表>
  @Test
    public void test1() throws Exception{
        SAXReader reader = new SAXReader();
        Document doc = reader.read("src/student.xml");
        List<Element> eList = doc.selectNodes("/学生列表/学生/姓名");
        for(Element e:eList){
            System.out.println(e.getText());
        }    
    }

五、java解析XML文件

  DOM解析:将XML文件加载进内存,构建DOM树,这样可以随意存取和修改文件树的任何部分,没有次数限制,并且易于开发,但不适合大型的XML文件。

  SAX解析:类似于流媒体的特点,能够立即对XML进行分析,而不是等待所有数据都加载完成。SAX解析是基于事件的模型,它在解析的过程中可以触发一系列的事件,然后激活回调方法进行处理,并且不能对XML进行修改操作。

SAX只能按照顺序进行解析,并且占用内存较小,适合大型XML文件。

  JAXP(Java API for XML Processing,意为XML处理的Java API)是Java XML程序设计的应用程序接口之一,它提供解析和验证XML文档的能力。DOM解析和SAX解析是两种思想,JAXP是java对其的具体实践。

  JDOM 实现了JAVA自己的文档模型,其效率比JAXP的DOM解析要快,JDOM自身不包含解析器。它通常使用SAX2解析器来解析和验证输入XML文档。JDOM还是要构建DOM树,所以对超大型XML文件还是不太适合。

  DOM4J  是一个非常非常优秀的Java XML API,具有性能优异、功能强大和极端易用使用的特点,并且具有更好的性能,同样也是不适合大型的XML文件。

  StAX  是一个基于JAVA API用于解析XML文档,类似SAX解析器的方式。StAX是PULL API,其中作为SAX是PUSH API。这意味着如果StAX解析器,客户端应用程序需要询问StAX解析器从XML获取信息它所需要的,但如果是SAX解析器,客户端应用程序需要获取信息时,SAX解析器会通知客户端应用程序的信息是可用的。StAX的API可以读取和写入XML文档。

代码示例:

  

public class TestJAXP {

    public static void main(String[] args) throws Exception{
        //jaxpDom();
        jaxpSax();
    }
    
    public static void jaxpDom() throws Exception{
        //读取xml文档
        DocumentBuilderFactory factory = DocumentBuilderFactory.newInstance();
        DocumentBuilder builder = factory.newDocumentBuilder();
        Document document = builder.parse(new FileInputStream(new File("F:/eclipseWorkSpace/testProject/src/testxml/book.xml")));
        String version = document.getXmlVersion();
        System.out.println(version);
        System.out.println(document.getNodeName());
        Node rootNode = document.getDocumentElement();
        System.out.println(rootNode.getNodeName() + "==" +(rootNode.getNodeType()== Node.ELEMENT_NODE));
        NodeList childNodes = rootNode.getChildNodes();
        int lenght = childNodes.getLength();
        for(int i=0;i<lenght;i++){
            Node childNode = childNodes.item(i);
            if(childNode.getNodeType() == Node.ELEMENT_NODE){
                System.out.println(childNode.getNodeName() +"=="+ childNode.getNodeType());
                System.out.println(childNode.getTextContent());
                NamedNodeMap attributes = childNode.getAttributes();
               for(int j=0 ; j<attributes.getLength();j++){
                   Node attr = attributes.item(j);
                   System.out.println(attr.getNodeName() + "==" + attr.getNodeValue());
               }
            }
        }
        Element book = document.createElement("book");
        book.setAttribute("id", "005");
        book.setAttribute("name", "XXX");
        Element privce = document.createElement("price");
        privce.setTextContent("15.01");
        book.appendChild(privce);
        rootNode.appendChild(book);
        
        //输出xml
        TransformerFactory tFactory = TransformerFactory.newInstance();
        Transformer tf = tFactory.newTransformer();
        tf.transform(new DOMSource(document), new StreamResult(new FileOutputStream("F:/eclipseWorkSpace/testProject/src/testxml/book2.xml")));
    }
    
    public static void jaxpSax() throws Exception{
        SAXParserFactory factory = SAXParserFactory.newInstance();
        SAXParser parser = factory.newSAXParser();
        XMLReader xmlReader = parser.getXMLReader();
        //XMLReader xmlReader = XMLReaderFactory.createXMLReader();//这种方式获取xmlReader也可以
        xmlReader.setContentHandler(new BookParser());
        xmlReader.parse(new InputSource(new FileInputStream("F:/eclipseWorkSpace/testProject/src/testxml/book2.xml")));
    }
}

class BookParser extends DefaultHandler{

    @Override
    public void startDocument() throws SAXException {
       System.out.println("<?xml version="1.0" encoding="UTF-8" ?>");
    }

    @Override
    public void startElement(String uri, String localName, String qName, Attributes attributes) throws SAXException {
        StringBuilder sb = new StringBuilder();
        sb.append("<").append(qName);
        for(int i=0;i<attributes.getLength();i++){
            sb.append(" "").append(attributes.getLocalName(i)).append(""=").append(attributes.getValue(i));
        }
        sb.append(">");
        System.out.print(sb);
    }

    @Override
    public void endElement(String uri, String localName, String qName) throws SAXException {
        System.out.print("</"+qName+">");
    }

    @Override
    public void characters(char[] ch, int start, int length) throws SAXException {
        String cnt = new String(ch,start,length);
        System.out.print(cnt);
    }
}
public class testJDom {

    public static void main(String[] args) throws JDOMException, IOException {
        String url = "F:/eclipseWorkSpace/testProject/src/testxml/book3.xml";
        getInfo(url);
    }
    
    @SuppressWarnings("unchecked")
    public static void getInfo(String url) throws JDOMException, IOException{
        SAXBuilder saxBuilder = new SAXBuilder();
        Document document = saxBuilder.build(new File(url));
        Element rootElement = document.getRootElement();
        System.out.println(rootElement.getName());
        List<Element> children = rootElement.getChildren();
        for(Element childElement :children){
            System.out.println(childElement.getName());
            List<Attribute> attributes = childElement.getAttributes();
            for(Attribute attr : attributes){
                System.out.println(attr.getName()+"====="+attr.getValue());
            }
        }
    }

}
public class TestDom4J {

    public static void main(String[] args) throws Exception {
        String url = "F:/eclipseWorkSpace/testProject/src/testxml/book3.xml";
        getInfo(url);
        //updateXml(url);
    }
    
    @SuppressWarnings("unchecked")
    public static void getInfo(String url) throws DocumentException{
        SAXReader reader = new SAXReader();
        Document document = reader.read(new File(url));
        Element rootNode = document.getRootElement();
        System.out.println(rootNode.getName());
        List<Element> elements = rootNode.elements();
        for(Element n : elements){
            System.out.println(n.getName());
            List<Attribute> attributes = n.attributes();
            for(Attribute attr : attributes){
                System.out.println(attr.getName()+"==="+attr.getValue());
            }
        }
    }
    
    public static void updateXml(String url) throws Exception{
        SAXReader reader = new SAXReader();
        Document document = reader.read(new File(url));
        Element rootNode = document.getRootElement();
        Element book = rootNode.addElement("book");
        book.addAttribute("id", "005");
        book.addAttribute("name","封神榜");
        Element price = book.addElement("price");
        price.setText("123.1");
        
        OutputFormat format = OutputFormat.createCompactFormat();
        format.setEncoding("UTF-8");
        XMLWriter xmlWriter = new XMLWriter(new FileOutputStream(url),format);
        xmlWriter.write(document);
        xmlWriter.close();
        
    }
}
public class TestStAX {

    public static void main(String[] args) throws FileNotFoundException, XMLStreamException {
        String url = "F:/eclipseWorkSpace/testProject/src/testxml/book.xml";
        getInfo(url);
    }
    
    public static void getInfo(String url) throws FileNotFoundException, XMLStreamException{
        XMLInputFactory factory = XMLInputFactory.newInstance();
        XMLStreamReader reader = factory.createXMLStreamReader(new FileInputStream(url));
        while(reader.hasNext()){
            int event = reader.next();
            if(event == XMLStreamConstants.START_ELEMENT ){
                StringBuilder sb = new StringBuilder();
                sb.append("<").append(reader.getLocalName());
                for(int i=0;i<reader.getAttributeCount();i++){
                    sb.append(" "").append(reader.getAttributeLocalName(i)).append(""=").append(reader.getAttributeValue(i));
                }
                sb.append(">");
                System.out.print(sb);
            }
            
            if(event == XMLStreamConstants.END_ELEMENT){
                System.out.print("</"+reader.getLocalName()+">");
            }
            
            if(event == XMLStreamConstants.CHARACTERS){
                System.out.print(reader.getText());
            }
        }
    }

}


 

原文地址:https://www.cnblogs.com/kyleinjava/p/8984712.html