Oracle 字符集

1.字符集查看方式;
2.服务端、客户端字符集设置;
3.乱码分析;

1.字符集查看方式:
1.1 通过 nls_database_parameters 视图查询数据库字符集(数据来源于props$):

1 SQL> select parameter,value from nls_database_parameters where parameter like '%CHARACTER%';
2 
3 PARAMETER                      VALUE
4 ------------------------------ ------------------------------
5 NLS_NUMERIC_CHARACTERS         .,
6 NLS_CHARACTERSET               AL32UTF8
7 NLS_NCHAR_CHARACTERSET         AL16UTF16
8 Elapsed: 00:00:00.02

1.2 通过 nls_session_parameters 查询当前session 环境变量(数据来源于:X$NLS_PARAMETERS):
SQL> select * from nls_session_parameters;

1.3 通过v$nls_parameters 视图查询(数据来源于:X$NLS_PARAMETERS):

1 SQL> select parameter,value from v$nls_parameters where parameter like '%CHARACTER%';
2 
3 PARAMETER                                                        VALUE
4 ---------------------------------------------------------------- ------------------------------
5 NLS_NUMERIC_CHARACTERS                                           .,
6 NLS_CHARACTERSET                                                 AL32UTF8
7 NLS_NCHAR_CHARACTERSET                                           AL16UTF16
8 Elapsed: 00:00:00.01

1.4 通过用户环境变量查询:

1 SQL> select userenv('language') from dual;
2 
3 USERENV('LANGUAGE')
4 ----------------------------------------------------
5 AMERICAN_AMERICA.AL32UTF8
6 Elapsed: 00:00:00.03

获得的结果包括:语言(NLS_LANGUAGE)、地区(NLS_TERRITORY)、字符集(NSL_CHARACTERSET);

2.服务端、客户端字符集设置:
2.1 服务端字符集设置:
2.1.1 新的字符集是旧的字符集超类:
数据库创建时提供字符集设置,通常是操作系统平台字符集,也可以在创建数据库后修改字符集,但新的字符集必须支持旧的字符集(旧字符集的超集);
修改前备份所有数据,修改字符集后导入数据到新字符集中;
修改步骤:

 1 SQL> shutdown immediate
 2  SQL> startup nomount
 3  SQL> alter database mount exclusive;  --装载数据为专用的高级模式;
 4  SQL> alter system enable restricted session; --启用受限制的session模式
 5  SQL> alter system set job_queue_processes=0; --'maximum number of job queue slave processes' 设置工作队列的最大进程数为0
 6  SQL> alter system set aq_tm_processes=0;
 7  SQL> alter database open;
 8  SQL> alter database character set AL32UTF8; --新的字符集必须支持旧的字符集(旧字符集的超集),相关错误:(ORA-12712: new character set must be a superset of old character set)
 9  SQL> shutdown immediate
10  SQL> startup

重启后字符集改变:

1  Verifying file header compatibility for 11g tablespace encryption..
2 Verifying 11g file header compatibility for tablespace encryption completed
3 SMON: enabling tx recovery
4 Database Characterset is AL32UTF8
5 No Resource Manager plan active
6 replication_dependency_tracking turned off (no async multimaster replication found)
7 WARNING: AQ_TM_PROCESSES is set to 0. System operation                     might be adversely affected.
8 Completed: ALTER DATABASE OPEN

2.1.2 新的字符集不是旧的字符集超类:
如果新字符集不是旧字符集的超类,如从 WE8MSWIN1252 ==>AL328TF8,修改方式如下,测试环境(ORACLE 11GR2):

SHUTDOWN IMMEDIATE;
startup mount;
ALTER SYSTEM ENABLE RESTRICTED SESSION;
ALTER SYSTEM SET job_queue_processes =0;
ALTER DATABASE OPEN;
ALTER DATABASE CHARACTER SET INTERNAL_USE AL32UTF8;  
SHUTDOWN IMMEDIATE;
STARTUP ;

在RAC环境中,设置时先停止所有节点上的数据库和实例,然后在单个节点上启动实例和数据库,设置 cluster_database=false,关闭数据库和实例,根据字符集继续2.1.1 或 2.1.2 的操作步骤,设置成功后,再设置 cluster_database=true,最后关闭节点上的数据库和实例,使用srvctl 启动所有节点上的实例和数据库:

alter system set cluster_database=false scope=spfile;
SHUTDOWN IMMEDIATE;
#执行2.1.1 或 2.1.2的操作

alter system set cluster_database=true scope=spfile;
shutdown immediate;

srvctl start database -d dbname   #最后使用srvctl 启动所以节点数据库

2.2 客户端字符集设置:

当客户端连接服务端时读取环境变量NLS_LANG和其它环境变量,当设置了NLS_LANG 环境变量后,相关环境变量(NLS_LANGUAGE、NLS_TERRITORY)会因该变量的设置而变化,因为它们默认情况下都是源于NLS_LANG环境变量;其它的环境变量(NLS_DATE_FORMAT、NLS_TIMESTAMP_FORMAT、NLS_NUMBERIC_CHARACTERS..)会因NLS_TERRITORY变量的设置而变化;WINDOWS 平台上NLS_LANG环境变量被设置在注册表内,在我的机器中默认值是:SIMPLIFIED CHINESE_CHINA.ZHS16GBK,LINUX 平台上通过NLS_LANG设置,如未设置或安装时使用Oracle Universal Install 安装,NLS_LANG环境变量是不会被设置的,其默认值为:AMERICAN_AMERICA.US7ASCII;

3.乱码分析:
以当前的环境为例,我并未设置NLS_LANG 环境变量,数据库的字符码为:AMERICAN_AMERICA.AL32UTF8

1 SQL> select userenv('language') from dual;
2 
3 USERENV('LANGUAGE')
4 ----------------------------------------------------
5 AMERICAN_AMERICA.AL32UTF8

而操作系统的字符集是:

1 [sywu@wusuyuan ~]$ locale
2 LANG=zh_CN.UTF-8

查询数据和插入数据都是乱码的:

 1 SQL> select * from tb_distree;
 2 
 3         ID NAME
 4 ---------- ------------------------------------------------------------------
 5          3 ??
 6          3 ??
 7          4 ??
 8          5 ??
 9 SQL> insert into tb_distree values(17,'德国');
10 
11 1 row created.

从10046 trace 中已经可以清晰看出后台乱码

 1 SQL ID: 5naprsgt1dqj3
 2 108 Plan Hash: 0
 3 109 insert  into tb_distree
 4 110 values
 5 111 (18,'������')
 6 112 
 7 113 
 8 114 call     count       cpu    elapsed       disk      query    current        rows
 9 115 ------- ------  -------- ---------- ---------- ---------- ----------  ----------
10 116 Parse        1      0.00       0.00          0          0          0           0
11 117 Execute      1      0.02       0.02          0          1          5           1
12 118 Fetch        0      0.00       0.00          0          0          0           0
13 119 ------- ------  -------- ---------- ---------- ---------- ----------  ----------
14 120 total        2      0.02       0.02          0          1          5           1
15 121 
16 122 Misses in library cache during parse: 1
17 123 Optimizer mode: ALL_ROWS
18 124 Parsing user id: 85
19 125 
20 126 Rows     Row Source Operation
21 127 -------  ---------------------------------------------------
22 128       0  LOAD TABLE CONVENTIONAL  (cr=1 pr=0 pw=0 time=0 us)
23 129

但此时数据库的字符集是AMERICAN_AMERICA.AL32UTF8,只是没有设置NLS_LANG环境变量且机器本身的字符集与数据库字符集不一致,在官方文档中表明该环境变量在未设置时默认为:AMERICAN_AMERICA.US7ASCII,US7ASCII字符集本身不支持中文,保存数据时,数据库进行字符转换,从US7ASCII转换为AL32UTF8;

1 SQL> select id,name,dump(name,'1016') from tb_distree;
2 
3         ID NAME       DUMP(NAME,'1016')
4 ---------- ---------- ----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------
5          3 ??         Typ=1 Len=6 CharacterSet=AL32UTF8: e4,ba,91,e5,8d,97
6          3 ??         Typ=1 Len=6 CharacterSet=AL32UTF8: e5,b9,bf,e4,b8,9c
7          4 ??         Typ=1 Len=6 CharacterSet=AL32UTF8: e5,8c,97,e4,ba,ac
8          5 ??         Typ=1 Len=6 CharacterSet=AL32UTF8: e5,9b,9b,e5,b7,9d
9          18 ??????    Typ=1 Len=18 CharacterSet=AL32UTF8: ef,bf,bd,ef,bf,bd,ef,bf,bd,ef,bf,bd,ef,bf,bd,ef,bf,bd

经尝试怎么转换都是乱码:

 1 SQL> select convert('中国','US7ASCII') from dual;
 2 
 3 CO
 4 --
 5 ??
 6 
 7 SQL> select convert(convert('中国','US7ASCII'),'AL32UTF8') FROM DUAL;
 8 
 9 CO
10 --
11 ??

设置环境变量:

 1 [sywu@wusuyuan ~]$ export NLS_LANG=AMERICAN_AMERICA.AL32UTF8
 2 [sywu@wusuyuan ~]$ echo $NLS_LANG
 3 AMERICAN_AMERICA.AL32UTF8
 4 
 5 SQL> select * from tb_distree;
 6 
 7         ID NAME
 8 ---------- ----------
 9          3 云南
10          3 广东
11          4 北京
12          5 四川
13          6 重庆
14          7 上海
15          8 香港
16         15 ������
17         17 ������
18         18 ������

这样字符就显示正常了,但之前在没有设置环境变量NLS_LANG=AMERICAN_AMERICA.AL32UTF8之前插入的数据依旧是乱码;总结:当客户端和服务端字符集相同时,不存在字符集转换,数据直接保存数据;当客户端和服务端字符集不相同时,在设置了NLS_LANG环境变量(未设置默认值:AMERICAN_AMERICA.US7ASCII)时,保存或提前数据,数据库都要经过字符转换,正确一致的设置字符集可以提高数据库效率;