XML入门

1 XML入门

1.1 引入

HTML: 负责网页的结构

CSS：负责网页的样式（美观）

Javascript：负责在浏览器端与用户进行交互。

负责静态的网页制作的语言

HTML语言特点：

1）由标签组成。 <title> <hr/>

2）语法结构松散的

大小写不区分

结束标签和开始标签不一定匹配

<html>
    <head>
        <title>this is title</title>
    </head>
    <body>
        <p>html标签</p>
        <P>html标签</P>
        <abc>abc标签</abc>  自定义标签
    </body>
</html>

这种自定义标签可以把他们叫做xml标签。

1.2 HTML和XML的区别

	HTML	xml
名称	HyperText Markup Languae（超文本标记语言）	Extend Markup Languge（可扩展标签语言）
标签	标签是w3c组成指定，固定的，约100来个	标签由开发者自己制定的（要按照一定的语法定义）
作用	负责网页的结构	1）描述带关系的数据（作为软件的配置文件）: 包含与被包含的关系 properties文件： key-value name=eric password=123456 <user> 　　<name>eric</name> 　　<password>123456</password> </user> 场景： tomcat struts Hibernate spring （三大框架） 2）作为数据的载体（存储数据，小型的“数据库”）

2 XML作用

2.1 描述带关系的数据（软件的配置文件）

web服务器（PC）：

学生管理系统 -> 添加学生功能 -> 添加学生页面 -> name=eric&email=eric@qq.com

前提：网络（IP地址： oracle：255.43.12.54 端口：1521 ）

java代码：使用ip（255.43.12.54）地址和端口（1521），连接oracle数据库，保存学生数据。

把ip地址端口配置到xml文件：

host.xml

<host>

</host>

数据库服务器（PC）：

主服务器（255.43.12.54）：Oracle数据库软件（负载）

副服务器（255.43.12.55）：Oracle数据库软件

2.2 数据的载体（小型的“数据库”）

教师管理系统：姓名工龄+1 邮箱

发教师数据给财务管理系统：

String teacher = name=张三&email=zhangsan@qq.com&workage=2 字符串

（问题： 1）不好解析 2）不是规范）

teacher.xml

<email>zhangsan@qq.com</email>

</teacher>

这种一种规范

财务管理系统：

姓名工龄+1 邮箱

发奖金：统计奖金。工龄
发邮件功能：

邮箱姓名金额

方案一：在财务管理系统中维护了一套教师信息。

每年：工龄增加维护了两个系统的信息。

方案二：教师信息只在教学管理系统中维护。

3 XML语法

xml文件以xml后缀名结尾。

xml文件需要使用xml解析器去解析。浏览器内置了xml解析器。

3.1 标签

语法： <student></student> 开始标签标签体内容结束标签

1）<student/> 或 <student></student> 空标签。没有标签体内容

2）xml标签名称区分大小写。

3）xml标签一定要正确配对。

4）xml标签名中间不能使用空格

5）xml标签名不能以数字开头

6）注意：在一个xml文档中，有且仅有一个根标签

3.2 属性

语法： <Student name="eric">student</Student>

注意：

1）属性值必须以引号包含，不能省略，也不能单双引号混用！！！

2）一个标签内可以有多个属性，但不能出现重复的属性名！！！

3.3 注释

语言：

练习：

通讯录系统

联系人数据：编号（唯一的）姓名年龄电话邮箱 QQ

要求：

contact.xml

1）设计一个xml文件，用于存储联系人数据

2）这个xml文件可以多个联系人。

3.4 文档声明

语法： <?xml version="1.0" encoding="utf-8"?>

version: xml的版本号

encoding：解析xml文件时查询的码表（解码过程时查询的码表）

注意：

1）如果在ecplise工具中开发xml文件，保存xml文件时自动按照文档声明的encoding来保存文件。

2）如果用记事本工具修改xml文件，注意保存xml文件按照文档声明的encoding的码表来保存。

3.5 转义字符

在xml中内置了一些特殊字符，这些特殊字符不能直接被浏览器原样输出。如果希望把这些特殊字符按照原样输出到浏览器，对这些特殊字符进行转义。转义之后的字符就叫转义字节。

特殊字符转义字符

< <

> >

" "

& &

空格 &nsbp;

3.6 CDATA块

作用：可以让一些需要进行包含特殊字符的内容统一进行原样输出。

3.7 处理指令

作用：告诉xml解析如果解析xml文档

案例： <?xml-stylesheet type="text/css" href="1.css"?> 告诉xml解析该xml文档引用了哪个css文件

需要提前xml内容可以使用xml-stylesheet指令指令

4 XML解析

4.1 引入

xml文件除了给开发者看，更多的情况使用程序读取xml文件的内容。这叫做xml解析

4.2 XML解析方式（原理不同）

DOM解析

SAX解析

4.3 XML解析工具

DOM解析原理:

1）JAXP （oracle-Sun公司官方）

2）JDOM工具（非官方）

3）Dom4J工具（非官方）

三大框架（默认读取xml的工具就是Dom4j）

.......

SAX解析原理：

1）Sax解析工具（oracle-sun公司官方）

4.4 什么是DOM解析

DOM解析原理：xml解析器一次性把整个xml文档加载进内存，然后在内存中构建一颗Document的对象树，通过Document对象，得到树上的节点对象，通过节点对象访问（操作）到xml文档的内容。

4.5 Dom4j工具

非官方，不在jdk中。

使用步骤：

1）导入dom4j的核心包。 dom4j-1.6.1.jar

2）编写Dom4j读取xml文件代码

public static void main(String[] args) {
        try {
            //1.创建一个xml解析器对象
            SAXReader reader = new SAXReader();
            //2.读取xml文档，返回Document对象
            Document doc = reader.read(new File("./src/contact.xml"));
            
            System.out.println(doc);
        } catch (DocumentException e) {
            e.printStackTrace();
            throw new RuntimeException(e);
        }
        
    }

4.6 Domj4读取xml文件

节点：

Iterator Element.nodeIterator(); //获取当前标签节点下的所有子节点

标签：

Element Document.getRootElement(); //获取xml文档的根标签

Element ELement.element("标签名") //指定名称的第一个子标签

Iterator<Element> Element.elementIterator("标签名");// 指定名称的所有子标签

List<Element> Element.elements(); //获取所有子标签

属性：

String Element.attributeValue("属性名") //获取指定名称的属性值

Attribute Element.attribute("属性名")；//获取指定名称的属性对象

Attribute.getName() //获取属性名称

Attibute.getValue() //获取属性值

List<Attribute> Element.attributes(); //获取所有属性对象

Iterator<Attribute> Element.attibuteIterator(); //获取所有属性对象

文本：

Element.getText(); //获取当前标签的文本

Element.elementText("标签名") //获取当前标签的指定名称的子标签的文本内容

3 xPath技术

3.1 引入

问题：当使用dom4j查询比较深的层次结构的节点（标签，属性，文本），比较麻烦！！！

3.2 xPath作用

主要是用于快速获取所需的节点对象。

3.3 在dom4j中如何使用xPath技术

1）导入xPath支持jar包。 jaxen-1.1-beta-6.jar

2）使用xpath方法

List<Node> selectNodes("xpath表达式"); 查询多个节点对象

Node selectSingleNode("xpath表达式"); 查询一个节点对象

3.4 xPath语法

/ 绝对路径表示从xml的根位置开始或子元素（一个层次结构）

// 相对路径表示不分任何层次结构的选择元素。

* 通配符表示匹配所有元素

[] 条件表示选择什么条件下的元素

@ 属性表示选择属性节点

and 关系表示条件的与关系（等价于&&）

text() 文本表示选择文本内容

3.5 案例

用户登录功能：

用户输入用户名和密码 -> 到“数据库”查询是否有对应的用户 ->

有：则表示登录成功

没有：则表示登录失败

用xml当做数据库

user.xml 用来存储用户的数据

4 SAX解析

4.1回顾DOM解析

DOM解析原理：一次性把xml文档加载进内存，然后在内存中构建Document树。

对内存要求比较要。

缺点：不适合读取大容量的xml文件，容易导致内存溢出。

SAX解析原理：加载一点，读取一点，处理一点。对内存要求比较低。

4.2 SAX解析工具

SAX解析工具- Sun公司提供的。内置在jdk中。org.xml.sax.*

核心的API：

SAXParser类：用于读取和解析xml文件对象

parse（File f, DefaultHandler dh）方法：解析xml文件

参数一： File：表示读取的xml文件。

参数二： DefaultHandler： SAX事件处理程序。使用DefaultHandler的子类

例如：｛

1.创建SAXParser对象

SAXParser parser=SAXParserFactory.newInstance().newSAXParser();

2.调用parse方法

parser.parse(new File("./src/contact.xml"), new MyDefaultHandler());

｝ [一个类继承class 类名（extends DefaultHandler）在调用是创建传进去

DefaultHandler类的API:

void startDocument() : 在读到文档开始时调用

void endDocument() ：在读到文档结束时调用

void startElement(String uri, String localName, String qName, Attributes attributes) ：读到开始标签时调用

void endElement(String uri, String localName, String qName) ：读到结束标签时调用

void characters(char[] ch, int start, int length) ：读到文本内容时调用

============DOM解析 vs SAX解析 ========

DOM解析	SAX解析
原理：一次性加载xml文档，不适合大容量的文件读取	原理：加载一点，读取一点，处理一点。适合大容量文件的读取
DOM解析可以任意进行增删改成	SAX解析只能读取
DOM解析任意读取任何位置的数据，甚至往回读	SAX解析只能从上往下，按顺序读取，不能往回读
DOM解析面向对象的编程方法（Node，Element，Attribute）,Java开发者编码比较简单。	SAX解析基于事件的编程方法。java开发编码相对复杂。

总结：

1）Dom4j修改xml文档

new XMLWrier();

......

2）xPath技术：快速查询xml节点

selectNodes()

selectSinglNode();

xpath表达式语言

3) SAX解析

SAXParser parse

parser（）

DefaultHandler类：

startElement();

characters();

endElement();

5.XML约束

XML约束要求：大家能够看懂约束内容，根据约束内容写出符合规则的xml文件。

5.1 引入

XML语法：规范的xml文件的基本编写规则。（由w3c组织制定的）

XML约束：规范XML文件数据内容格式的编写规则。（由开发者自行定义）

5.2 XML约束技术

DTD约束：语法相对简单，功能也相对简单。学习成本也低。

Schema约束：语法相对复杂，功能也相对强大。学习成本相对高！！！（名称空间）

5.3 DTD约束

1)导入dtd方式

内部导入

<!DOCTYPE note [
  <!ELEMENT note (to,from,heading,body)>
  <!ELEMENT to      (#PCDATA)>
  <!ELEMENT from    (#PCDATA)>
  <!ELEMENT heading (#PCDATA)>
  <!ELEMENT body    (#PCDATA)>
]>

外部导入

本地文件系统：

<!DOCTYPE note SYSTEM "note.dtd">

公共的外部导入：

<!DOCTYPE 根元素 PUBLIC "http://gz.itcast.cn/itcast.dtd">

2）DTD语法

约束标签

<!ELEMENT 元素名称类别> 或 <!ELEMENT 元素名称 (元素内容)>

类别：

空标签： EMPTY。表示元素一定是空元素。

普通字符串： (#PCDATA)。表示元素的内容一定是普通字符串（不能含有子标签）。

任何内容： ANY。表示元素的内容可以是任意内容（包括子标签）

(元素内容):

顺序问题：

<!ELEMENT 元素名称 (子元素名称 1,子元素名称 2,.....)>：按顺序出现子标签

次数问题：

标签：必须且只出现1次。

标签+ ：至少出现1次

标签* ： 0或n次。

标签？： 0 或1次。

约束属性

<!ATTLIST 元素名称属性名称属性类型默认值>

默认值：

#REQUIRED 属性值是必需的

#IMPLIED 属性不是必需的

#FIXED value 属性不是必须的，但属性值是固定的

属性类型：控制属性值的

CDATA ：表示普通字符串

(en1|en2|..)：表示一定是任选其中的一个值

ID：表示在一个xml文档中该属性值必须唯一。值不能以数字开头

5.4 Schema约束

名称空间：告诉xml文档的哪个元素被哪个schema文档约束。在一个xml文档中，不同的标签可以受到不同的schema文档的约束。

1）一个名称空间受到schema文档约束的情况

2）多个名称空间受到多个schema文档约束的情况

3）默认名称空间的情况

4）没有名称空间的情况

author@nohert