Oracle 查看字符集 Linux运维

1.查看字符集

 1 一、oracle服务端字符集
 2 SQL> select userenv('language') from dual ;
 3 
 4 USERENV('LANGUAGE')
 5 ----------------------------------------------------
 6 AMERICAN_AMERICA.ZHS16GBK
 7 
 8 
 9 二、oracle客户段字符集
10 
11 2.1 window环境下，修改注册表ORACLE_HOME目录下的环境变量NLS_LANG。
12 
13 2.2 unix/linux环境下，就是环境变量$NLS_LANG
14 
15 [oracle@wang ~]$ echo $NLS_LANG
16 AMERICAN_AMERICA.ZHS16GBK
17 
18  查看数据库字符集
19 
20     数据库服务器字符集select * from nls_database_parameters;，其来源于props$，是表示数据库的字符集。
21 
22 　　客户端字符集环境select * from nls_instance_parameters;,其来源于v$parameter，表示客户端的字符集的设置，可能是参数文件，环境变量或者是注册表
23 　　
24  如何查询dmp文件的字符集
25 
26 用oracle的exp工具导出的dmp文件也包含了字符集信息，dmp文件的第2和第3个字节记录了dmp文件的字符集。如果dmp文件不大，比如只有几M或几十M，可以用UltraEdit打开(16进制方式)，看第2第3个字节的内容，如0354，然后用以下SQL查出它对应的字符集:
27 
28 SQL> select nls_charset_name(to_number('0354','xxxx')) from dual;
29 
30 ZHS16GBK
31 
32 如果dmp文件很大，比如有2G以上(这也是最常见的情况)，用文本编辑器打开很慢或者完全打不开，可以用以下命令(在unix主机上):
33 cat exp.dmp |od -x|head -1|awk '{print $2 $3}'|cut -c 3-6
34 然后用上述SQL也可以得到它对应的字符集

2.od 命令解释

#od命令功能说明：输出文件内容。
语　　法：od [-abcdfhilovx][-A <字码基数>][-j <字符数目>][-N <字符数目>][-s <字符串字符数>][-t <输出格式>][-w <每列字符数>][--help][--version][文件...]
补充说明：od指令会读取所给予的文件的内容，并将其内容以八进制字码呈现出来。
参　　数：
　-a  此参数的效果和同时指定"-ta"参数相同。 
　-A<字码基数>  选择要以何种基数计算字码。 
　-b  此参数的效果和同时指定"-toC"参数相同。 
　-c  此参数的效果和同时指定"-tC"参数相同。 
　-d  此参数的效果和同时指定"-tu2"参数相同。 
　-f  此参数的效果和同时指定"-tfF"参数相同。 
　-h  此参数的效果和同时指定"-tx2"参数相同。 
　-i  此参数的效果和同时指定"-td2"参数相同。 
　-j<字符数目>或--skip-bytes=<字符数目>  略过设置的字符数目。 
　-l  此参数的效果和同时指定"-td4"参数相同。 
　-N<字符数目>或--read-bytes=<字符数目>  到设置的字符数目为止。 
　-o  此参数的效果和同时指定"-to2"参数相同。 
　-s<字符串字符数>或--strings=<字符串字符数>  只显示符合指定的字符数目的字符串。 
　-t<输出格式>或--format=<输出格式>  设置输出格式。 
　-v或--output-duplicates  输出时不省略重复的数据。 
　-w<每列字符数>或--width=<每列字符数>  设置每列的最大字符数。 
　-x  此参数的效果和同时指定"-h"参数相同。 
　--help  在线帮助。 
　--version  显示版本信息。

实　　例：
1
2
3
[linuxde@localhost ~]$ echo abcdef g > tmp 
[linuxde@localhost ~]$ cat tmp 
abcdef g
说明：先准备一个tmp文件

1
2
3
[linuxde@localhost ~]$ od -b tmp 
0000000 141 142 143 144 145 146 040 147 012 
0000011
说明：使用单字节八进制解释进行输出，注意左侧的默认地址格式为八字节

1
2
3
[linuxde@localhost ~]$ od -c tmp 
0000000 a b c d e f g \n 
0000011
说明：使用ASCII码进行输出，注意其中包括转义字符

1
2
3
[linuxde@localhost ~]$ od -t d1 tmp 
0000000 97 98 99 100 101 102 32 103 10 
0000011
说明：使用单字节十进制进行解释

1
2
3
[linuxde@localhost ~]$ od -A d -c tmp 
0000000 a b c d e f g \n 
0000009
说明：设置地址格式为十进制。

1
2
3
[linuxde@localhost ~]$ od -A x -c tmp 
000000 a b c d e f g \n 
000009
说明：设置地址格式为十六进制

1
2
3
[linuxde@localhost ~]$ od -j 2 -c tmp 
0000002 c d e f g \n 
0000011
说明：跳过开始的两个字节

1
2
3
[linuxde@localhost ~]$ od -N 2 -j 2 -c tmp 
0000002 c d 
0000004
说明：跳过开始的两个字节，并且仅输出两个字节

1
2
3
4
5
6
7
8
9
10
11
[linuxde@localhost ~]$ od -w1 -c tmp 
0000000 a 
0000001 b 
0000002 c 
0000003 d 
0000004 e 
0000005 f 
0000006 
0000007 g 
0000010 \n 
0000011
说明：每行仅输出1个字节

1
2
3
4
5
6
7
[linuxde@localhost ~]$ od -w2 -c tmp 
0000000 a b 
0000002 c d 
0000004 e f 
0000006 g 
0000010 \n 
0000011
说明：每行输出两个字节

1
2
3
4
5
[linuxde@localhost ~]$ od -w3 -b tmp 
0000000 141 142 143 
0000003 144 145 146 
0000006 040 147 012 
0000011
说明：每行输出3个字节，并使用八进制单字节进行解释

3.修改字符集

1、字符集和国家字符集
字符集在创建数据库实例时指定，可以指定字符集（CHARACTER SET）和国家字符集（NATIONAL CHARACTER SET）。

1）字符集（CHARACTER SET）

用来存储char、varchar2、clob、long等类型数据，还可以用来标识表名、列名以及PL/SQL变量等。

2）国家字符集（NATIONAL CHARACTER SET）

用以存储nchar、nvarchar2、nclob等类型数据。国家字符集实质上是为Oracle选择的附加字符集，主要作用是为了增强字符处理能力，因为nchar数据类型可以提供对亚洲使用定长多字节编码的支持，而数据库字符集则不一定能。国家字符集只能在unicode编码中的AF16UTF16和UTF8中选择，默认值是AF16UTF16。

2、支持中文的字符集
Oracle支持汉字（简体中文，繁体不介绍）的字符集有多种，常用的有ZHS16GBK、UTF8、AL32UTF8和AL16UTF16。

1）ZHS16GBK

表示简体中文，一个字符需要16位比特，采用GBK编码标准。

2）UTF8

Oracle从8i版本开始使用的属于UTF-8编码的字符集，采用的Unicode标准为3.0，在11.2版本中，UTF8已经不是推荐字符集列表中的一员了。

3）AL32UTF8

与UTF8相比，它采用的Unicode版本更新，在10g版本中使用的是Unicode 4.01标准，而UTF8因为兼容性的考虑，在10g版本中用的是Unicode 3.0标准。

4）AL16UTF16

是ORACLE第一种采用UTF-16编码方式的字符集，从ORACLE9开始使用，是作为缺省的国家字符集使用，它不能被用作数据库的字符集。

3、NLS_LANG参数
Oracle数据库字符集最重要的参数是NLS_LANG参数。

格式: NLS_LANG='language_territory.charset'，不区分大小写，例如' SIMPLIFIED CHINESE_CHINA.ZHS16GBK'。

它有三个组成部分：语言（language）、地域（territory）和字符集（charset）。

其中:

language：数据库服务器提示信息的语言。

territory：数据库的日期和数字格式，意义不大。

charset：数据库的字符集。

真正影响数据库字符集的其实是第三部分charset，两个数据库之间的字符集只要第三部分相同，交换数据时中文不会出现乱码。language影响的只是提示信息是中文还是英文。

三、服务端的字符集
1、查看服务端字符集
执行以下SQL可以查看服务端的字符集。

select * from NLS_DATABASE_PARAMETERS where parameter like '%CHARACTERSET%';
在这里插入图片描述

执行以下SQL也可以查看服务端的字符集。

select userenv('language') from dual;
在这里插入图片描述

2、修改服务端字符集
Oracle数据库实例创建后，如果没有开始业务运行，可以修改字符集，如果已经业务化运行，不建议修改字符集，会造成数据中的汉字乱码。

用DBA权限，执行以下步骤修改Oracle数据库的字符集（例如修改为ZHS16GBK）。

1）修改服务端操作系统的NLS_LANG环境变量。

export NLS_LANG='Simplified Chinese_China.ZHS16GBK'
2）关闭Oracle数据库。

shutdown immediate;
3）把数据库启动到mount状态。

startup mount;
4）把数据库改为restricted模式。

alter system enable restricted session;
alter system set job_queue_processes=0;
alter system set aq_tm_processes=0;
5）打开数据库。

alter database open;
6）修改数据库的字符集。

alter database character set internal_use ZHS16GBK;
7）重启数据库。

shutdown immediate;
startup;
四、客户端的字符集
Oracle客户端的字符集必须与服务端相同，否则中文会出现乱码。

1、Linux环境
客户端的字符集由NLS_LANG环境变量控制。

1）查看NLS_LANG环境变量。

env|grep NLS_LANG
在这里插入图片描述

2）设置环境变量

修改环境变量参数文件（系统或用户的profile文件）。

export NLS_LANG='Simplified Chinese_China.ZHS16GBK'
2、Windows环境
打开注册表（ 执行regedit.exe）

HKEY_LOCAL_MACHINE -> SOFTWARE -> ORACLE -> KEY_OraClient11g_home1

在这里插入图片描述

五、应用经验
1）数据库在业务化之前，就应该确定Oracle的字符集，然后不再改变。数据库在业务化后，修改字符集是一件很麻烦的事情，最好别惹这个麻烦。

2）如果项目没有全球化的需求，数据库字符集建议采用ZHS16GBK，操作系统语言建议采用gbk。

3）只要把客户端和服务端设置成相同的字符集，就不会有乱码，没什么技术难点。

4）虽然GB18030字符集比GBK更丰富，但是GB18030中有部分汉字是4字节，这一点让程序员很郁闷，所以，程序员更倾向GBK字符集

Do everything well