oracle字符存储

substr和substrb

以前知道有substrb,lengthb等函数，也知道它们是以byte来计算长度，可没用过，也不太明白什么地方需要用到它们。一直就是用substr,length，以字符来计算长度，在我看来varchar2和char里面存的都是字符，那么自然也就不可能以byte为单位来计算长度，也就用不到这些函数了，但事实证明我错了。最近有个procedure出错,往表里insert时总是报1401错误,看了一下程序,觉得问题很奇怪，目标表出错字段的长度是50，insert的对应这个字段的取法也是substr(**,1,50)，怎么会出错呢？有些怀疑是汉字字符为双字节的原因，于是试着将substr(**,1,50)改为了substr(**,1,25)，果然ok。上网找原因，在asktom上找到了解答。

数据库里的varchar2和char字段长度定义是有两种方式，按字节或按字符，按字节定义长度的方式是varchar2(n byte)或者char(n byte)，这也是缺省的长度定义方式，也就是说，平时我们用到的varchar2(n)或者char(n)都是按字节定义长度的，按字符定义长度的方式是varchar2(n char)或者char(n char)，这样的定义方式可以确保字段有足够的空间储存需要的字符，无论这些字符的长度是多少字节。我们遇到的这个错误的原因在于，数据库的字符集是多字节字符集，也就是说中文字符占多个字节，而源字段的内容都是中文，这样substr(**,1,50)的字节长度可能达到100，自然超过了目标表字段中的50了。

总结一些经验和教训，觉得在建表之前，如果某个字段需要储存中文的话，最好明确一下字段需要的长度是否是按字符来决定的。如果是按字符并且数据库字符集为多字节，那建表时就应该采取按字符定义长度的方式来定义该字段的长度。

一个汉字有几个字节？

依据编码形式：
GB－231280 编码为 2个字节(Byte) 包含了 20902 个汉字，其编码范围是 0x8140-0xfefe。
GB18030-2000(GBK2K) 在 GBK 的基础上进一步扩展了汉字，增加了藏、蒙等少数民族的字形。编码是变长的，其二字节部分与 GBK 兼容；四字节部分是扩充的字形、字位，其编码范围是首字节 0x81-0xfe、二字节0x30-0x39、三字节 0x81-0xfe、四字节0x30-0x39
Unicode 范围一般所用为U0000-UFFFF，对于CJK EXT B区汉字，范围大于U20000
UTF，按其基本长度所用位数分为UTF-8/16/32。其中：
UTF-8是变长编码，每个Unicode代码点按照不同范围，可以有1-3字节的不同长度。

UTF-16长度相对固定，只要不处理大于U200000范围的字符，每个Unicode代码点使用16位即2字节表示，超出部分使用两个UTF-16即4字节表示。按照高低位字节顺序，又分为UTF-16BE/UTF-16LE。

UTF-32长度始终固定，每个Unicode代码点使用32位即4字节表示。按照高低位字节顺序，又分为UTF-32BE/UTF-32LE。

一般用GB－231280 ，所以大多数情况下是占2个字节。

本文转自：http://sakyone.iteye.com/blog/607126