xml解析

一、什么是XML？有什么用途

　　1、XML全名为可扩展标记语言（eXtensible Markup Language），是w3c组织的一个技术规范，具有严格的数据格式，主要作用是描述数据并集中于数据的内容。

　　2、XML的主要用途：

　　　　①作为小型数据库存储数据，office软件貌似就是这么用xml存储数据。

　　　　②作为配置文件，存储相关的配置信息，如spring、mybatis等框架的配置文件。

　　　　③作为传输数据的载体，如webservice。不过由于xml的数据格式冗余太多，没有json高效简洁。

二、XML的文档格式

　　1、xml的文档声明：<?xml version="1.0" encoding="GBK" standalone="yes"?>

　　　　该声明不是必需，如果有则会在xml文档的第一行。该声明有三个键值对，version表示版本号，encoding表示该文档使用的字符集编码，standalone表示是否可以在不读取其他文件的情况下处理该文档。

2、xml注释：

　　3、标签 <标签><标签/> 、<标签/>

　　　　①标签区分大小写

　　　　②标签不能以数字或下划线开头、不能以xml开头、不能包含空格

　　　　③标签中所有的空格和换行都会当作标签内容来处理

　　4、xml中的转义字符

　　5、 <![CDATA[内容]]> 将内容原样输出

三、XML约束

　　　　如果一个XML文件的语法符合W3C的规范，这该XML是一个良好的XML。如果一个良好的XML通过了用户自定义的DTD和Schema的校验约束，则称这个XML为有效的XML。

　　　　XML的约束分为两种，DTD约束和Schema约束

　　　　1、DTD约束：文档类型定义(Document Type Definition，简称DTD)

　　　　　　①DTD的作用

　　　　　　　　DTD定义了XML文档内容的结构，保证XML以一致的格式存储数据

　　　　　　　　XML允许用户为应用程序创建自己的DTD

　　　　　　　　通过DTD定义的词汇表以及文档语法，XML解析器可以检查XML文档内容的有效性

　　　　　　②如何引入DTD

　　　　　　　　内部编写：　　　　　　

<?xml version="1.0" encoding="UTF-8" standalone="yes"?>
<!DOCTYPE 班级 [
    <!ELEMENT 班级 (学生+)>
    <!ELEMENT 学生 (姓名,性别,年龄)>
    <!ELEMENT 姓名 (#PCDATA)>
    <!ELEMENT 性别 (#PCDATA)>
    <!ELEMENT 年龄 (#PCDATA)>
]>
<班级>

    <学生>
        <姓名>小明</姓名>
        <性别>男</性别>
        <年龄>67</年龄>
    </学生>
    ...
</班级>

　　　　　　　　外部引入本地约束文件：<!DOCTYPE 文档根结点 SYSTEM "DTD文件的URL">

<?xml version="1.0" encoding="UTF-8"?>
<!DOCTYPE books SYSTEM "F:/eclipseWorkSpace/testProject/src/testxml/book.dtd">
<books>
    <book id="001" name="红楼梦">
        <price>10.0</price>
    </book>
    <book id="002" name="三国演义">
        <price>11.0</price>
    </book>
    <book id="003" name="西游记">
        <price>12.0</price>
    </book>
    <book id="004" name="水浒传">
        <price>13.0</price>
    </book>
</books>



<!--DTD约束文件book.dtd-->
<?xml version="1.0" encoding="UTF-8" ?>

<!ELEMENT books (book)?>

<!ELEMENT book (price)?>
<!ATTLIST book
    id ID #REQUIRED
    name CDATA #REQUIRED
>

<!ELEMENT price (#PCDATA)>

　　　　　　　　外部引入公共约束文件：<!DOCTYPE 文档根结点 PUBLIC "DTD名称" "DTD文件的URL">

　　　　　　③DTD语法

　　　　　　　　元素声明格式：<!ELEMENT 元素名称元素类型>

　　　　　　　　　　元素类型分类：

　　　　　　　　　　　　EMPTY：不能有子元素，不能有文本数据，可以有属性

　　　　　　　　　　　　#PCDATA：不能有子元素，只能有文本元素

　　　　　　　　　　　　ANY：元素可以包含任意类型的元素，子元素、文本、空白

　　　　　　　　　　带有子元素的元素配置方式：

　　　　　　　　元素属性约束声明：

　　　　　　　　　　　　<!ATTLIST 元素名

　　　　　　　　属性名1 属性值类型设置说明

　　　　　　　　属性名2 属性值类型设置说明

　　　　　　　　……>

　　　　　　　　　　属性值类型

　　　　　　　　　　　　CDATA：普通文本字符串

　　　　　　　　　　　　ENUMERATED：属性类型是一组列表，XML属性只能从中选择一个如：<!ATTLIST 肉品种 ( 鸡肉 | 牛肉 | 猪肉 | 鱼肉 ) "鸡肉">

　　　　　　　　　　　　ID ：属性的设置值为一个唯一值。属性的值只能由字母，下划线开始，不能出现空白字符。

　　　　　　　　　　设置说明

　　　　　　　　　　　　#REQUIRED 必须设置该属性

　　　　　　　　　　　　#IMPLIED ：可以设置也可以不设置

　　　　　　　　　　　　#FIXED ：该属性为一固定值。如：<!ATTLIST 姓名帮派 CDATA #FIXED "丐帮">

　　　　　　　　　　　　直接使用默认值：在 XML 中可以设置该值也可以不设置该属性值。若没设置则使用默认值。如 <!ATTLIST 姓名帮派 CDATA "丐帮">

　　　　　　④Schema约束：

　　　　　　　　XML也是一种定义和描述XML文档结构和内容的语言，其出现是为了克服DTD的局限性，其支持更多的数据类型，并支持用户自定义新的数据类型。

　　　　　　　　XML Schema 文件自身就是一个XML文件，它的扩展名通常为.xsd。

　　　　　　　　XML Schema对名称空间支持得非常好。

　　　　　　　　一个XML Schema文档通常称之为模式文档(约束文档)，遵循这个文档书写的xml文件称之为实例文档。

　　　　　　　　编写了一个XML Schema约束文档后，通常需要把这个文件中声明的元素绑定到唯一的一个ＵＲＩ地址上，在XML Schema技术中有一个专业术语来描述这个过程，即把XML Schema文档声明的元素绑定到一个名称空间上，以后XML文件就可以通过这个URI（即名称空间）来告诉解析引擎，xml文档中编写的元素来自哪里，被谁约束。

四、XPath基本使用

　　XPath是一种表达式语言，XPath 使用路径表达式来选取 XML 文档中的节点或节点集。节点是通过沿着路径 (path) 或者步 (steps) 来选取的。XPath是为了更快更好地选取我们想要选取的XML元素。

<?xml version="1.0" encoding="utf-8"?>
<学生列表> 
  <学生 学号="001"> 
    <姓名>郭靖</姓名>  
    <密码>123</密码>
    <性别>男</性别>  
    <年龄>30</年龄>  
    <师傅>江南七怪</师傅> 
  </学生>  
  <学生 学号="002"> 
    <姓名 帮派="丐帮">黄蓉</姓名>
    <密码>456</密码>  
    <性别>女</性别>  
    <年龄>20</年龄> 
  </学生> 
</学生列表>

　　@Test
    public void test1() throws Exception{
        SAXReader reader = new SAXReader();
        Document doc = reader.read("src/student.xml");
        List<Element> eList = doc.selectNodes("/学生列表/学生/姓名");
        for(Element e:eList){
            System.out.println(e.getText());
        }    
    }

五、java解析XML文件

　　DOM解析：将XML文件加载进内存，构建DOM树，这样可以随意存取和修改文件树的任何部分，没有次数限制，并且易于开发，但不适合大型的XML文件。

　　SAX解析：类似于流媒体的特点，能够立即对XML进行分析，而不是等待所有数据都加载完成。SAX解析是基于事件的模型，它在解析的过程中可以触发一系列的事件，然后激活回调方法进行处理，并且不能对XML进行修改操作。

SAX只能按照顺序进行解析，并且占用内存较小，适合大型XML文件。

　　JAXP（Java API for XML Processing，意为XML处理的Java API）是Java XML程序设计的应用程序接口之一，它提供解析和验证XML文档的能力。DOM解析和SAX解析是两种思想，JAXP是java对其的具体实践。

　　JDOM 实现了JAVA自己的文档模型，其效率比JAXP的DOM解析要快，JDOM自身不包含解析器。它通常使用SAX2解析器来解析和验证输入XML文档。JDOM还是要构建DOM树，所以对超大型XML文件还是不太适合。

　　DOM4J 是一个非常非常优秀的Java XML API，具有性能优异、功能强大和极端易用使用的特点，并且具有更好的性能，同样也是不适合大型的XML文件。

　　StAX 是一个基于JAVA API用于解析XML文档，类似SAX解析器的方式。StAX是PULL API，其中作为SAX是PUSH API。这意味着如果StAX解析器，客户端应用程序需要询问StAX解析器从XML获取信息它所需要的，但如果是SAX解析器，客户端应用程序需要获取信息时，SAX解析器会通知客户端应用程序的信息是可用的。StAX的API可以读取和写入XML文档。

代码示例：

public class TestJAXP {

    public static void main(String[] args) throws Exception{
        //jaxpDom();
        jaxpSax();
    }
    
    public static void jaxpDom() throws Exception{
        //读取xml文档
        DocumentBuilderFactory factory = DocumentBuilderFactory.newInstance();
        DocumentBuilder builder = factory.newDocumentBuilder();
        Document document = builder.parse(new FileInputStream(new File("F:/eclipseWorkSpace/testProject/src/testxml/book.xml")));
        String version = document.getXmlVersion();
        System.out.println(version);
        System.out.println(document.getNodeName());
        Node rootNode = document.getDocumentElement();
        System.out.println(rootNode.getNodeName() + "==" +(rootNode.getNodeType()== Node.ELEMENT_NODE));
        NodeList childNodes = rootNode.getChildNodes();
        int lenght = childNodes.getLength();
        for(int i=0;i<lenght;i++){
            Node childNode = childNodes.item(i);
            if(childNode.getNodeType() == Node.ELEMENT_NODE){
                System.out.println(childNode.getNodeName() +"=="+ childNode.getNodeType());
                System.out.println(childNode.getTextContent());
                NamedNodeMap attributes = childNode.getAttributes();
               for(int j=0 ; j<attributes.getLength();j++){
                   Node attr = attributes.item(j);
                   System.out.println(attr.getNodeName() + "==" + attr.getNodeValue());
               }
            }
        }
        Element book = document.createElement("book");
        book.setAttribute("id", "005");
        book.setAttribute("name", "XXX");
        Element privce = document.createElement("price");
        privce.setTextContent("15.01");
        book.appendChild(privce);
        rootNode.appendChild(book);
        
        //输出xml
        TransformerFactory tFactory = TransformerFactory.newInstance();
        Transformer tf = tFactory.newTransformer();
        tf.transform(new DOMSource(document), new StreamResult(new FileOutputStream("F:/eclipseWorkSpace/testProject/src/testxml/book2.xml")));
    }
    
    public static void jaxpSax() throws Exception{
        SAXParserFactory factory = SAXParserFactory.newInstance();
        SAXParser parser = factory.newSAXParser();
        XMLReader xmlReader = parser.getXMLReader();
        //XMLReader xmlReader = XMLReaderFactory.createXMLReader();//这种方式获取xmlReader也可以
        xmlReader.setContentHandler(new BookParser());
        xmlReader.parse(new InputSource(new FileInputStream("F:/eclipseWorkSpace/testProject/src/testxml/book2.xml")));
    }
}

class BookParser extends DefaultHandler{

    @Override
    public void startDocument() throws SAXException {
       System.out.println("<?xml version="1.0" encoding="UTF-8" ?>");
    }

    @Override
    public void startElement(String uri, String localName, String qName, Attributes attributes) throws SAXException {
        StringBuilder sb = new StringBuilder();
        sb.append("<").append(qName);
        for(int i=0;i<attributes.getLength();i++){
            sb.append(" "").append(attributes.getLocalName(i)).append(""=").append(attributes.getValue(i));
        }
        sb.append(">");
        System.out.print(sb);
    }

    @Override
    public void endElement(String uri, String localName, String qName) throws SAXException {
        System.out.print("</"+qName+">");
    }

    @Override
    public void characters(char[] ch, int start, int length) throws SAXException {
        String cnt = new String(ch,start,length);
        System.out.print(cnt);
    }
}

public class testJDom {

    public static void main(String[] args) throws JDOMException, IOException {
        String url = "F:/eclipseWorkSpace/testProject/src/testxml/book3.xml";
        getInfo(url);
    }
    
    @SuppressWarnings("unchecked")
    public static void getInfo(String url) throws JDOMException, IOException{
        SAXBuilder saxBuilder = new SAXBuilder();
        Document document = saxBuilder.build(new File(url));
        Element rootElement = document.getRootElement();
        System.out.println(rootElement.getName());
        List<Element> children = rootElement.getChildren();
        for(Element childElement :children){
            System.out.println(childElement.getName());
            List<Attribute> attributes = childElement.getAttributes();
            for(Attribute attr : attributes){
                System.out.println(attr.getName()+"====="+attr.getValue());
            }
        }
    }

}

public class TestDom4J {

    public static void main(String[] args) throws Exception {
        String url = "F:/eclipseWorkSpace/testProject/src/testxml/book3.xml";
        getInfo(url);
        //updateXml(url);
    }
    
    @SuppressWarnings("unchecked")
    public static void getInfo(String url) throws DocumentException{
        SAXReader reader = new SAXReader();
        Document document = reader.read(new File(url));
        Element rootNode = document.getRootElement();
        System.out.println(rootNode.getName());
        List<Element> elements = rootNode.elements();
        for(Element n : elements){
            System.out.println(n.getName());
            List<Attribute> attributes = n.attributes();
            for(Attribute attr : attributes){
                System.out.println(attr.getName()+"==="+attr.getValue());
            }
        }
    }
    
    public static void updateXml(String url) throws Exception{
        SAXReader reader = new SAXReader();
        Document document = reader.read(new File(url));
        Element rootNode = document.getRootElement();
        Element book = rootNode.addElement("book");
        book.addAttribute("id", "005");
        book.addAttribute("name","封神榜");
        Element price = book.addElement("price");
        price.setText("123.1");
        
        OutputFormat format = OutputFormat.createCompactFormat();
        format.setEncoding("UTF-8");
        XMLWriter xmlWriter = new XMLWriter(new FileOutputStream(url),format);
        xmlWriter.write(document);
        xmlWriter.close();
        
    }
}

public class TestStAX {

    public static void main(String[] args) throws FileNotFoundException, XMLStreamException {
        String url = "F:/eclipseWorkSpace/testProject/src/testxml/book.xml";
        getInfo(url);
    }
    
    public static void getInfo(String url) throws FileNotFoundException, XMLStreamException{
        XMLInputFactory factory = XMLInputFactory.newInstance();
        XMLStreamReader reader = factory.createXMLStreamReader(new FileInputStream(url));
        while(reader.hasNext()){
            int event = reader.next();
            if(event == XMLStreamConstants.START_ELEMENT ){
                StringBuilder sb = new StringBuilder();
                sb.append("<").append(reader.getLocalName());
                for(int i=0;i<reader.getAttributeCount();i++){
                    sb.append(" "").append(reader.getAttributeLocalName(i)).append(""=").append(reader.getAttributeValue(i));
                }
                sb.append(">");
                System.out.print(sb);
            }
            
            if(event == XMLStreamConstants.END_ELEMENT){
                System.out.print("</"+reader.getLocalName()+">");
            }
            
            if(event == XMLStreamConstants.CHARACTERS){
                System.out.print(reader.getText());
            }
        }
    }

}