XML操作

XML简介

XML是指可扩展标记语言(eXtensible Markup Language),它是一种标记语言,类似HTML。

XML技术除用于保存有关系的数据之外,它还经常用作软件配置文件,以描述程序模块之间的关系

XML结构

文档声明

<?xml version="1.0" encoding="UTF-8" ?>

属性

<天津 id='022'>

注释

<!-- -->

CDATA区 、特殊字符 

<![CDATA[展示的内容]]>

是否独立

* standalone="yes或者no" 代表xml的文件是否是独立的。(如果是no,不独立,可以引入外部的文件)(可选的)

标签

对于XML标签中出现的所有空格和换行,XML解析程序都会当作标签内容进行处理。例如:下面两段内容的意义是不一样的

属性

一个元素可以有多个属性,每个属性都有它自己的名称和取值,例如:<mytag id=“12” …/>

元素中的属性是不允许重复的

转义字符

CDATA区

CDATA是Character Data的缩写

 作用:把标签当做普通文本内容;

 语法:<![CDATA[内容]]>

 例子:

<![CDATA[
<itcast>www.itcast.cn</itcast>
]]>
以上红色部分被当做普通文本而不是标签

Dom4j解析xml

Dom4j是一个简单、灵活的开放源代码的库。Dom4j是由早期开发JDOM的人分离出来而后独立开发的。与JDOM不同的是,dom4j使用接口和抽象基类,虽然Dom4j的API相对要复杂一些,但它提供了比JDOM更好的灵活性。 

使用Dom4j开发,需下载dom4j相应的jar文件。

Dom4j解析操作

获取xml解析器  SAXReader   saxReader=new SAXReader();
获取dom对象   Document doc=saxReader.read(new File(“xml文件路径”));(注意,xml文件路径最好放到项目里面,写路径地址的时候,使用相对地址 ./表示当前项目路径)

nodeIterator()   获取当前document或者当前标签的所有子节点(注意:节点包括注释节点(注释节点name为null,值text为注释内容),标签节点,文本节点,属性节点)

elements():获取标签下面的所有子标签,返回list的标签集合
elementIterator():获取标签下面的所有子标签,返回标签迭代器
getRootElement() 获取当前文档的根标签
element("标签名字")获取某个标签下面指定名称的第一个标签对象
elementText("标签名字")获取某个标签下面指定名称的第一个标签的text内容
attribute("属性名称")  获取某个标签的指定名称的属性对象
attributeValue("属性名称")  获取某个标签的指定名称的属性对象值

使用Dom4j创建XML

DocumentHelper.createDocument() 创建document文档
addElement("Students");   增加指定名称的标签
addAttribute("属性名", "属性值") 给标签新增指定的属性名称和属性值
nameEle.setText("文本内容"); 给标签设置指定的内容
OutputFormat.createPrettyPrint()  指定xml内容输出的文件格式:带有空格和换行,格式美观
OutputFormat.createCompactFormat()  指定xml内容输出的文件格式:去掉空格和换行,一般用于正式的服务器上
format.setEncoding("utf-8"); //设置xml文件的编码和解析的编码
XMLWriter writer=new XMLWriter(outputStream, format);创建xml写入的对象
writer.write(doc); 写入document文档

使用dom4j修改xml

attribute.setText("id2");  给属性赋值
attribute.setValue("id2"); 给属性赋值  也可以通过增加同名属性的方法,修改属性值
element.element("name").setText("ddddd") 给某个标签的文本设置值

使用dom4j删除标签或属性

rmElement.detach()  删除rmElement标签
element.remove(rmElement) 删除rmElement标签
attribute.detach() 删除attribute属性
element.remove(attribute); 删除element属性

DTD

在XML技术里,可以编写一个文档来约束一个XML文档的书写规范,这称之为XML约束。

DTD(Document Type Definition),全称为文档类型定义。

dtd约束引入三种方式

DTD约束即可以作为一个单独的文件编写,也可以在XML文件内编写

使用内部DTD

<!DOCTYPE  根节点  [   DTD的代码  ]>

使用外部DTD

<!DOCTYPE 根元素 SYSTEM “DTD文档路径”>

如:<!DOCTYPE 书架 SYSTEM “book.dtd”>

 使用网络DTD

当引用的DTD文档在公共网络上时,采用如下方式:

<!DOCTYPE 根元素 PUBLIC “DTD名称” “DTD文档的URL”>
如:<!DOCTYPE web-app PUBLIC 
"-//Sun Microsystems, Inc.//DTD Web Application 2.3//EN"
"http://java.sun.com/dtd/web-app_2_3.dtd">

 DTD约束语法细节

格式

例如:

<!ATTLIST 商品 

类别 CDATA #REQUIRED 必须的

颜色 CDATA #IMPLIED  可选的

>

属性值类型:

CDATA:表示属性的取值为普通的文本字符串

 ENUMERATED (DTD没有此关键字):表示枚举,只能从枚举列表中任选其一,如(鸡肉|牛肉|猪肉|鱼肉)

 ID:表示属性的取值不能重复(不能只写数字)

 设置说明

 

 元素类型

* (#PCDATA) 字符串

* EMPTY 空

* ANY 任意的

* (子元素)

子元素

* , 子元素出现是有顺序的

* | 子元素只能出现一个

* + 子元素出现1次或多次

* * 子元素出现0次或多次

* ? 子元素出现0次或1次

<?xml version="1.0" encoding="UTF-8"?>




<!--<!DOCTYPE 书架 [-->
        <!--<!ELEMENT 书架 (书+)>-->
        <!--<!ELEMENT 书 (书名,价格,作者)>-->
        <!--<!ELEMENT 书名 (#PCDATA)>-->
        <!--<!ELEMENT 作者 (#PCDATA)>-->
        <!--<!ELEMENT 价格 (#PCDATA)>-->


        <!--]>-->

<!DOCTYPE 书架 [
        <!ELEMENT 书架 (书+)>
        <!ELEMENT 书 ((作者?,价格*,类别)| 内容 )>
        <!ELEMENT  作者 (#PCDATA)>
        <!ELEMENT  价格 (#PCDATA)>
        <!ELEMENT  类别 (#PCDATA)>
        <!ELEMENT  内容 (#PCDATA)>

        ]>

<书架>
    <>
        <作者>zzz</作者>
        <!--<作者>zzz</作者> 报错只能有一个作者-->
        <价格>123</价格>
        <类别>水果</类别>
    </>
    <>
        <作者>zzz</作者>
        <!--<价格>123</价格> *可以有多个价格-->
        <价格>123</价格>
        <类别>水果</类别>
    </>
    <>
        <!--<作者>zzz</作者>/选一个-->
        <!--<价格>123</价格>-->
        <!--<类别>水果</类别>--> 
        <内容>fasfasdfasf</内容>
    </>
</书架>
原文地址:https://www.cnblogs.com/taozizainali/p/10945455.html