深入解读XML解析

一、XML是什么？有什么用？

XML是指可扩展标记语言(eXtensible MarkupLanguage)，它是一种标记语言。它被设计的宗旨是描述数据（XML），而非显示数据（HTML）。

目前遵循的是W3C组织于2000年发布的XML1.0规范

二、XML的基本语法

1、文档声明：很重要

在编写XML文档时，需要先使用文档声明来声明XML文档。且必须出现在文档的第一行。

作用：告知解析器，我是一个XML文档。

最简单的声明语法：

<?xml version="1.0"?> 中间不要加空格，后面加？号

当我们写好的一个xml文件写入内存的时候会转换为二进制保存，这个时候会查码表，记事本保存的时候是gbk，而保存的时候默认查码表时用的是utf-8，

这个时候我们就可以用encoding属性：默认是UTF-8 <?xml version="1.0" encoding="GBK"?>，这样就可以解决乱码等问题。

standlone属性：该xml文件是否独立存在。

2、元素（标签）

XML语法非常严格。不能够省略结束标签。

一个XML文档必须有且仅有一个根标签

XML中不会忽略主体内容中出现的空格和换行

元素(标签)的名称可以包含字母、数字、减号、下划线和英文句点，但必须遵守下面的一些规范：

l 严格区分大小写；<P> <p>

l 只能以字母或下划线开头；abc _abc

l 不能以xml(或XML、Xml等)开头----W3C保留日后使用；

l 名称字符之间不能有空格或制表符；ab

l 名称字符之间不能使用冒号； (有特殊用途)

3、元素的属性

属性值一定要用引号(单引号或双引号)引起来

元素中属性不允许重复

4、注释

XML中的注释语法为：

XML声明之前不能有注释不允许第一行写注释(不同于java)

5、CDATA区

Character Data：字符数据。

语法：

<![CDATA[

内容

]]>

作用：

被CDATA包围的内容，都是普通的文本字符串。

6、特殊字符

特殊字符替代符号

& &amp

< &lt

> &gt

" &quot

' &apos

三、XML的约束

XML可以自定义。如果作为配置文件。

格式良好的XML文档：遵循XML语法的。

有效的XML文档：遵守约束的XML文档。

有效的XML文档必定是格式良好的，但良好的不一定是有效的。

1、DTD约束：（能看懂DTD即可）

a、DTD(Document Type Definition)：文档类型定义

作用：约束XML的书写规范

注意：dtd可以写在单独的文件中，扩展名是dtd，且必须使用UTF-8编码进行保存。

b、XML文档中如何导入DTD约束文档（XML外部）

l dtd文档在本地：

<!DOCTYPE 根元素 SYSTEM "dtd文件的路径">

l dtd文档在网络上：

<!DOCTYPE 根元素 PUBLIC "dtd名称" "DTD文档的URL链接地址">

四、利用Java代码解析XML文档

1、解析方式

l DOM：Document Object Model，文档对象模型。这种方式是W3C推荐的处理XML的一种标准方式。

缺点：必须读取整个XML文档，才能构建DOM模型，如果XML文档过大，造成资源的浪费。

优点：适合对XML中的数据进行操作（CRUD）。

l SAX：Simple API for XML。这种方式不是官方标准，属于开源社区XML-DEV，几乎所有的XML解析器都支持它。

2、解析工具

JAXP：

DOM或SAX方式进行解析XML。API在JDK之中。

Dom4J：（推荐）

是开源组织推出的解析开发包。(牛，大家都在用，包括SUN公司的一些技术的实现都在用)

五、JAXP进行DOM方式解析XML基本练习

1、JAXP简介：

开发包：（JDK中）

DOM：W3C。org.w3c.dom.* DOM规范。（接口/抽象类）

SAX：开源组织。org.xml.sax.* SAX规范。（接口/抽象类）

JAXP：javax.xml.*

sax解析原理

在使用 DOM 解析 XML 文档时，需要读取整个 XML 文档，在内存中构架代表整个 DOM 树的Doucment对象，从而再对XML文档进行操作。此种情况下，如果 XML 文档特别大，就会消耗计算机的大量内存，并且容易导致内存溢出。

SAX解析允许在读取文档的时候，即对文档进行处理，而不必等到整个文档装载完才会文档进行操作。

SAX采用事件处理的方式解析XML文件，利用 SAX 解析 XML 文档，涉及两个部分：解析器和事件处理器：解析器可以使用JAXP的API创建，创建出SAX解析器后，就可以指定解析器去解析某个XML文档。解析器采用SAX方式在解析某个XML文档时，它只要解析到XML文档的一个组成部分，都会去调用事件处理器的一个方法，解析器在调用事件处理器的方法时，会把当前解析到的xml文件内容作为方法的参数传递给事件处理器。事件处理器由程序员编写，程序员通过事件处理器中方法的参数，就可以很轻松地得到sax解析器解析到的数据，从而可以决定如何对数据进行处理

基本解析操作

    //1解析器
    SAXParser parse = SAXParserFactory.newInstance().newSAXParser();
    //2获取xml读取器
    XMLReader reader = parse.getXMLReader();
    //3注册内容处理器
    reader.setContentHandler(new ContentHandler1());
    //4读取xml文档
    reader.parse("src/book.xml");