00XML相关知识

一、xml语法
  1.文档声明
    用来声明xml的基本属性,用来指挥解析引擎如何去解析当前xml
    通常一个xml都要包含并且只能包含一个文档声明
    xml的文档必须在整个xml的最前面,在文档声明之前不能有任何内容
   
    <?xml version="1.0" ?>--version是必须存在的属性,表明当前xml所遵循规范的版本,目前位置都写1.0就可以了
    <?xml version="1.0" encoding="utf-8" ?>--encoding用来只会解析引擎在解析xml时使用的编码,一定要保证xml格式的数据在保存时使用的编码和解析时使用的编码必须一致,才不会有乱码问题
    <?xml version="1.0" encoding="utf-8" standalone="yes" />--standalone属性用来指明当前xml是否是一个独立的xml,默认值是yes表明当前文档不需要依赖于其他文档,如果当前文档依赖其他文档而存在则需要将此值设置为no
    
  2.元素
    一个xml标签就是一个元素
    一个标签分为开始标签和结束标签
    在开始标签和结束标签之间可以包含文本内容,这样的文本内容叫做标签体
    如果标签的开始标签和结束标签之间不包含标签和子标签则可以将开始标签和结束标签进行合并,这样的标签就叫做自闭标签
    一个标签中也可以包含任意多个子标签,但是一定要注意标签一定要合理嵌套
    一个格式良好的xml要包含并且只能包含一个根标签,其他的标签都应该是这个标签的子孙标签
      
      区分大小写,例如,<P>和<p>是两个不同的标记。
      不能以数字或标点符号或"_"开头。
      不能以xml(或XML、或Xml 等)开头。
      不能包含空格
      名称中间不能包含冒号(:)。

  
  3.属性
    一个标签可以有多个属性,每个属性都有它自己的名称和取值,例如:
    <china capital="beijing"/>
    属性的名在定义时要遵循和xml元素相同的命名规则
    属性的值需要用单引号或双引号括起来

 4. 注释
  <!-- 注释内容 -->
  注释可以出现在xml文档的任意位置除了整个文档的最前面.不能出现在文档声明之前
  注释不能嵌套注释
  
  
  5.CDATA区/转义字符
    <![CDATA[转义的内容]]>:
      当XML中一段内容不希望被解析器解析时可以使用CDATA区将其包住
      当解析器遇到CDATA区时会将其内容当作文本对待,不会进行解析
      语法:<![CDATA[ 内容 ]]>
     
   转义字符:
    &  --> &amp;
    <  --> &lt;
    >  --> &gt;
    "  --> &quot;
    '  --> &apos;
    

  6.处理指令
    处理指令,简称PI (processing instruction)。处理指令用来指挥解析引擎如何解析XML文档内容。
    <?xml-stylesheet type="text/css" href="1.css"?>


  
二、dtd语法 --- 了解语法,看得懂dtd就可以 
  1.如何在xml中引入dtd
    (1)外部引入
      可以将dtd的约束内容写在外置的dtd文件中,这个文件后缀必须为.dtd而文件保存时必须用utf-8编码保存.
      再在xml文件中使用
        <!DOCTYPE 根元素名称  SYSTEM 文件的位置>
        如果写的是SYSTEM表明当前引入的dtd在当前文件系统中,后面制定的文件位置是当前硬盘中的位置
        <!DOCTYPE 文档根结点 PUBLIC "DTD名称" "DTD文件的URL">
        如果写的是PUBLIC表明当前引入的dtd在网络公共位置中,后面要指明dtd的名字和dtd所在网络位置URL地址
    (2)内部引入
      直接在xml中书写dtd
      <!DOCTYPE 根元素名称[
        dtd约束....
      ]>

  2.dtd语法
      (1)元素
          <!ELEMENT 元素名称 元素约束>
            元素约束:
                存放类型:ANY/EMPTY
元素约束:子元素的列表,将可以包含的子元素用小括号括起来
子元素之间可以使用逗号进行分割,表明子元素必须按照顺序出现
子元素之间可以使用竖线进行分割,表面子元素出现其中之一
#PCDATA 表明包含标签体

+ 表示一次或多次
* 0次或多次
? 0次或一次

也可以使用小括号进行组的操作


      (2)属性
<!ATTLIST 元素名 
属性名 属性类型 属性约束
属性名2 属性类型  属性约束
......
>

属性类型:
CDATA:表示属性的值是一个普通字符串
ENUMERATED : 属性的值是一个枚举列表中的值
ID: 表明属性的值必须在整个文档中都是唯一的,如果有重复的id则校验不通过,ID 属性的值只能由字母,下划线开始,不能使用数字,不能出现空白字符

属性约束:
#REQUIRED  --- 表明当前属性是一个必须存在的属性,如果这样的属性不存在则在校验时会报错
#IMPLIED --- 表明当前属性是一个可选的属性,可以有也可以没有
#FIXED '固定值' --- 表明当前属性具有一个固定值,这样的属性不需要进行赋值,自动就会取这个固定值为值.如果这样的属性指定了一个不是固定值的值则校验报错
'默认值'  ---  表明当前属性具有一个默认值,如果给了其他的值就用其他值,如果没有给值则取这个默认值


(3)ENTITY(实体)
<!ENTITY >,就是对一大段内容的引用,可以简化代码的复用

引用实体:在xml中引用的实体叫做引用实体
<!ENTITY 实体名称 “实体内容” >
&实体名称;

参数实体:在dtd中引用的实体叫做参数实体
<!ENTITY % 实体名称 "实体内容">
%实体名称;


三、XML编程:利用java程序去增删改查(CRUD)xml中的数据
解析思想:
dom解析
sax解析
基于这两种解析思想市面上就有了很多的解析api
sun jaxp既有dom方式也有sax方式,并且这套解析api已经加入到j2se的规范中,意味这不需要导入任何第三方开发包就可以直接使用这种解析方式.但是这种解析方式效率低下,没什么人用.
dom4j 可以使用dom方式高效的解析xml.
pull
!!dom4j
导入开发包,通常只需要导入核心包就可以了,如果在使用的过程中提示少什么包到lib目录下在导入缺少的包即可


四、Schema -- xml的约束技术  --- 需要掌握名称空间的概念,会读简单的Schema就可以了,不需要大家自己会写

Schema是xml的约束技术,出现的目的是为了替代dtd
本身也是一个xml,非常方便使用xml的解析引擎进行解析
对名称空间有非常好的支持
支持更多的数据类型,并且支持用户自定义数据类型
可以进行语义级别的限定,限定能力大大强于dtd
相对于dtd不支持实体
相对于dtd复杂的多,学习成本比较的高
如何在xml中引入Schema --- !!!!!名称空间的概念:全世界独一无二的名字,用来唯一的标识某个资源,通常是公司的域名,只是名字而已并不真的表示资源的位置.

    
    ~~~ Schema的语法---参照Schema的文档,了解即可

一、xml语法
  1.文档声明
    用来声明xml的基本属性,用来指挥解析引擎如何去解析当前xml
    通常一个xml都要包含并且只能包含一个文档声明
    xml的文档必须在整个xml的最前面,在文档声明之前不能有任何内容
    
    <?xml version="1.0" ?>--version是必须存在的属性,表明当前xml所遵循规范的版本,目前位置都写1.0就可以了
    <?xml version="1.0" encoding="utf-8" ?>--encoding用来只会解析引擎在解析xml时使用的编码,一定要保证xml格式的数据在保存时使用的编码和解析时使用的编码必须一致,才不会有乱码问题
    <?xml version="1.0" encoding="utf-8" standalone="yes" />--standalone属性用来指明当前xml是否是一个独立的xml,默认值是yes表明当前文档不需要依赖于其他文档,如果当前文档依赖其他文档而存在则需要将此值设置为no
    
  2.元素
    一个xml标签就是一个元素
    一个标签分为开始标签和结束标签
    在开始标签和结束标签之间可以包含文本内容,这样的文本内容叫做标签体
    如果标签的开始标签和结束标签之间不包含标签和子标签则可以将开始标签和结束标签进行合并,这样的标签就叫做自闭标签
    一个标签中也可以包含任意多个子标签,但是一定要注意标签一定要合理嵌套
    一个格式良好的xml要包含并且只能包含一个根标签,其他的标签都应该是这个标签的子孙标签
      
      区分大小写,例如,<P>和<p>是两个不同的标记。
      不能以数字或标点符号或"_"开头。
      不能以xml(或XML、或Xml 等)开头。
      不能包含空格
      名称中间不能包含冒号(:)。

  
  3.属性
    一个标签可以有多个属性,每个属性都有它自己的名称和取值,例如:
    <china capital="beijing"/>
    属性的名在定义时要遵循和xml元素相同的命名规则
    属性的值需要用单引号或双引号括起来

 4. 注释
  <!-- 注释内容 -->
  注释可以出现在xml文档的任意位置除了整个文档的最前面.不能出现在文档声明之前
  注释不能嵌套注释
  
  
  5.CDATA区/转义字符
    <![CDATA[转义的内容]]>:
      当XML中一段内容不希望被解析器解析时可以使用CDATA区将其包住
      当解析器遇到CDATA区时会将其内容当作文本对待,不会进行解析
      语法:<![CDATA[ 内容 ]]>
     
   转义字符:
    &  --> &amp;
    <  --> &lt;
    >  --> &gt;
    "  --> &quot;
    '  --> &apos;
    

  6.处理指令
    处理指令,简称PI (processing instruction)。处理指令用来指挥解析引擎如何解析XML文档内容。
    <?xml-stylesheet type="text/css" href="1.css"?>


  
二、dtd语法 --- 了解语法,看得懂dtd就可以 
  1.如何在xml中引入dtd
    (1)外部引入
      可以将dtd的约束内容写在外置的dtd文件中,这个文件后缀必须为.dtd而文件保存时必须用utf-8编码保存.
      再在xml文件中使用
        <!DOCTYPE 根元素名称  SYSTEM 文件的位置>
        如果写的是SYSTEM表明当前引入的dtd在当前文件系统中,后面制定的文件位置是当前硬盘中的位置
        <!DOCTYPE 文档根结点 PUBLIC "DTD名称" "DTD文件的URL">
        如果写的是PUBLIC表明当前引入的dtd在网络公共位置中,后面要指明dtd的名字和dtd所在网络位置URL地址
    (2)内部引入
      直接在xml中书写dtd
      <!DOCTYPE 根元素名称[
        dtd约束....
      ]>

  2.dtd语法
      (1)元素
          <!ELEMENT 元素名称 元素约束>
            元素约束:
                存放类型:ANY/EMPTY
元素约束:子元素的列表,将可以包含的子元素用小括号括起来
子元素之间可以使用逗号进行分割,表明子元素必须按照顺序出现
子元素之间可以使用竖线进行分割,表面子元素出现其中之一
#PCDATA 表明包含标签体

+ 表示一次或多次
* 0次或多次
? 0次或一次

也可以使用小括号进行组的操作


      (2)属性
<!ATTLIST 元素名 
属性名 属性类型 属性约束
属性名2 属性类型  属性约束
......
>

属性类型:
CDATA:表示属性的值是一个普通字符串
ENUMERATED : 属性的值是一个枚举列表中的值
ID: 表明属性的值必须在整个文档中都是唯一的,如果有重复的id则校验不通过,ID 属性的值只能由字母,下划线开始,不能使用数字,不能出现空白字符

属性约束:
#REQUIRED  --- 表明当前属性是一个必须存在的属性,如果这样的属性不存在则在校验时会报错
#IMPLIED --- 表明当前属性是一个可选的属性,可以有也可以没有
#FIXED '固定值' --- 表明当前属性具有一个固定值,这样的属性不需要进行赋值,自动就会取这个固定值为值.如果这样的属性指定了一个不是固定值的值则校验报错
'默认值'  ---  表明当前属性具有一个默认值,如果给了其他的值就用其他值,如果没有给值则取这个默认值


(3)ENTITY(实体)
<!ENTITY >,就是对一大段内容的引用,可以简化代码的复用

引用实体:在xml中引用的实体叫做引用实体
<!ENTITY 实体名称 “实体内容” >
&实体名称;

参数实体:在dtd中引用的实体叫做参数实体
<!ENTITY % 实体名称 "实体内容">
%实体名称;


三、XML编程:利用java程序去增删改查(CRUD)xml中的数据
解析思想:
dom解析
sax解析
基于这两种解析思想市面上就有了很多的解析api
sun jaxp既有dom方式也有sax方式,并且这套解析api已经加入到j2se的规范中,意味这不需要导入任何第三方开发包就可以直接使用这种解析方式.但是这种解析方式效率低下,没什么人用.
dom4j 可以使用dom方式高效的解析xml.
pull
!!dom4j
导入开发包,通常只需要导入核心包就可以了,如果在使用的过程中提示少什么包到lib目录下在导入缺少的包即可


四、Schema -- xml的约束技术  --- 需要掌握名称空间的概念,会读简单的Schema就可以了,不需要大家自己会写

Schema是xml的约束技术,出现的目的是为了替代dtd
本身也是一个xml,非常方便使用xml的解析引擎进行解析
对名称空间有非常好的支持
支持更多的数据类型,并且支持用户自定义数据类型
可以进行语义级别的限定,限定能力大大强于dtd
相对于dtd不支持实体
相对于dtd复杂的多,学习成本比较的高
如何在xml中引入Schema --- !!!!!名称空间的概念:全世界独一无二的名字,用来唯一的标识某个资源,通常是公司的域名,只是名字而已并不真的表示资源的位置.

    
    ~~~ Schema的语法---参照Schema的文档,了解即可


三、应该知道的Dom4J、

你所应该知道的Dom4J

创建解析器:

              SAXReader reader = new SAXReader();

利用解析器读入xml文档:
       Document   document = reader.read(new File("input.xml"));

获取文档的根节点:

Element root = document.getRootElement();

接口继承结构:

Node        ---

Branch

--Document

--Element

----

Attribute

 

Node接口

String

asXML()
asXMLreturns the textual XML representation of this node.

将一个节点转换为字符串

String

getName()
getNamereturns the name of this node.

获取节点的名称,如果是元素则获取到元素名,如果是属性获取到属性名

short

getNodeType()
Returns the code according to the type of node.

获取节点类型,Node接口上定义了一些静态short类型的常量用来表示各种类型

Element

getParent()
getParentreturns the parent Element if this node supports the parent relationship or null if it is the root element or does not support the parent relationship.

获取父节点,如果是根元素调用则返回null,如果是其他元素调用则返回父元素,如果是属性调用则返回属性所依附的元素。

String

getText()
Returns the text of this node.

返回节点文本,如果是元素则返回标签体,如果是属性则返回属性值

List

selectNodes(String xpathExpression)
selectNodesevaluates an XPath expression and returns the result as a List of Node instances or String instances depending on the XPath expression.

利用xpath表达式,选择节点

void

setName(String name)
Sets the text data of this node or this method will throw an UnsupportedOperationException if it is read-only.

设置节点的名称,元素可以更改名称,属性则不可以,会抛出UnsupportedOperationException 异常

void

setText(String text)
Sets the text data of this node or this method will throw an UnsupportedOperationException if it is read-only.

设置节点内容,如果是元素则设置标签体,如果是属性则设置属性的值

void

write(Writer writer)
writewrites this node as the default XML notation for this node.

将节点写出到一个输出流中,元素、属性均支持

 

 

Branch接口(实现了Node接口)

void

add(Element element)
Adds the given Element to this branch.

增加一个子节点

Element

addElement(QName qname)
Adds a new Element node with the given
QNameto this branch and returns a reference to the new node.

增加一个给定名字的子节点,并且返回这个新创建的节点的引用

int

indexOf(Node node)
Returns the index of the given node if it is a child node of this branch or -1 if the given node is not a child node.

获取给定节点在所有直接点中的位置号,如果该节点不是此分支的子节点,则返回-1

boolean

remove(Element element)
Removes the given Element if the node is an immediate child of this branch.

删除给定子元素,返回布尔值表明是否删除成功。

 

Element接口(实现了Branch, Node接口)

void

add(Attribute attribute)
Adds the given Attribute to this element.

增加一个属性

Element

addAttribute(QName qName, String value)
Adds the attribute value of the given fully qualified name.

为元素增加属性,用给定的属性名和属性值,并返回该元素

Element

addAttribute(String name, String value)
           Adds the attribute value of the given local name.

为元素增加属性

Attribute

attribute(int index)
Returns the attribute at the specified indexGets the

获取指定位置的属性

Attribute

attribute(QName qName)
DOCUMENT ME!

获取指定名称的属性

Iterator

attributeIterator()
DOCUMENT ME!

获取属性迭代器

List

attributes()
Returns the
Attributeinstances this element contains as a backed Listso that the attributes may be modified directly using the Listinterface.

获取该元素的所有属性,以一个list返回

String

attributeValue(QName qName)
This returns the attribute value for the attribute with the given fully qualified name or null if there is no such attribute or the empty string if the attribute value is empty.

获取指定名称属性的值,如果不存在该属性返回null,如果存在该属性但是属性值为空,则返回空字符串

Element

element(QName qName)
Returns the first element for the given fully qualified name.

获取指定名称的子元素,如果有多个该名称的子元素,则返回第一个

Element

element(String name)
Returns the first element for the given fully qualified name.

获取指定名称的子元素,如果有多个该名称的子元素,则返回第一个

Iterator

elementIterator()
Returns an iterator over all this elements child elements.

获取子元素迭代器

Iterator

elementIterator(QName qName)
Returns an iterator over the elements contained in this element which match the given fully qualified name.

获取指定名称的子元素的迭代器

List

elements()
Returns the elements contained in this element.

获取所有子元素,并用一个list返回

List

elements(QName qName)
Returns the elements contained in this element with the given fully qualified name.

获取所有指定名称的子元素,并用一个list返回

String

getText()
Returns the text value of this element without recursing through child elements.

获取元素标签体

boolean

remove(Attribute attribute)
Removes the given Attribute from this element.

移除元素上的属性

void

setAttributes(List attributes)
Sets the attributes that this element contains

list中的所有属性设置到该元素上

 

Attribute接口(实现了Node接口)

QName

getQName()
Returns the QName of this attribute which represents the local name, the qualified name and the Namespace.

获取属性名称

String

getValue()
Returns the value of the attribute.

获取属性的值

void

setValue(String value)
Sets the value of this attribute or this method will throw an UnsupportedOperationException if it is read-only.

设置属性的值

 

 

DocumentHelper

static Attribute

createAttribute(Element owner, QName qname, String value)

创建一个Attribute

 

static Document

createDocument()

创建一个Document

 

static Document

createDocument(Element rootElement)

以给定元素作为根元素创建Document

 

 

static Element

createElement(QName qname)

以给定名称创建一个Element

static Document

parseText(String text)
parseTextparses the given text as an XML document and returns the newly created Document.

将一段字符串转化为Document

 

 

 

将节点写出到XML文件中去

方法1

调用Node提供的write(Writer writer) 方法,使用默认方式将节点输出到流中:

         node.write(new FileWriter("book.xml"));

乱码问题:

Dom4j在将文档载入内存时使用的是文档声明中encoding属性声明的编码集进行编码,  如果在此时使用writer输出时writer使用的内部编码集与encoding不同则会有乱码问题。

FileWriter默认使用操作系统本地码表即gb2312编码,并且无法更改。

此时可以使用OutputStreamWriter(FileOutputStream("filePath"),"utf-8");的方式自己封装    一个指定码表的Writer使用,从而解决乱码问题。

方式2:

利用XMLWriter写出Node:
             XMLWriter writer = new XMLWriter(new  FileWriter("output.xml"));
             writer.write(node);
             writer.close();

乱码问题:

1)使用这种方式输出时,XMLWriter首先会将内存中的docuemnt翻译成UTF-8          格式的document,在进行输出,这时有可能出现乱码问题。

可以使用OutputFormat 指定XMLWriter转换的编码为其他编码。

              OutputFormat format = OutputFormat.createPrettyPrint();            

            format.setEncoding("GBK");       
              XMLWriter writer = new XMLWriter(new FileWriter("output.xml"),format);

2Writer使用的编码集与文档载入内存时使用的编码集不同导致乱码,使用字节流                   或自己封装指定编码的字符流即可(参照方法1)。



四、应该知道的XPATH

你所应该知道的XPATH

1.从根路径开始的绝对路径方式获取   /AAA

例子:获取所有AAA下的BBB下的所有CCC/AAA/BBB/CCC

2.所有指定名称的元素   //AAA

例子:获取所有名称为AAA的元素

3.使用*匹配福获得所有满足条件的元素

例子:获取AAABBB下所有的元素:/AAA/BBB/*

4.使用中括号,获取多个匹配元素中的某一个,可以使用last()函数获取最后一个

例子:获取AAA下所有BBB的第二个:/AAA/BBB[2]

例子:获取AAA下所有BBB的最后一个:/AAA/BBB[last()]

5.指定某一属性:@AttName,可以配合中括号使用

例子:获取所有id属性://@id

例子:获取所有具有id属性的BBB元素://BBB[@id]

例子:获取所有不具有属性的BBB元素://BBB[not(@*)]

例子:获取属性的值为某一个固定值的BBB元素://BBB[@id='b1']

 














原文地址:https://www.cnblogs.com/angel11288/p/6925bc7643aef1f75447e30f7e1359b4.html