在Oracle数据库中如果服务器端客户端字符集设置不当,就会造成保存到数据库的数据不会正常保存,或者数据库里的数据在客户段不能正常显示,出现烂码的现象。

cuug本周五晚8点免费Oracle网络公开课《人生最痛苦的事:人还在钱没了——守护数据库的备份信息》

尤其是以PLSQL操作的时候,由于PLSQL的bug,会造成一些看起来不’正常‘的乱码现象,下面来解释一下:

1,查看数据库的字符集:

SQL> select * from database_properties where property_name='NLS_CHARACTERSET

PROPERTY_NAME                  PROPERTY_VALUE                 DESCRIPTION

------------------------------ ------------------------------ --------------

NLS_CHARACTERSET               UTF8                           Character set

2,客户端的操作系统环境为中文,在默认的设置下通过sqlplus插入一条数据后提交:

SQL> insert into yorker.test values('中文','SQLPLUS default');

这时候在插入的时候,客户端的字符,比如’中文 ‘是以操作系统的编码方式(比如ZHS16GBK)编码后发送到Oracle服务器段,Oracle在存入数据库的时候转换成

UTF8存储。

3,以默认的方式打开SQLPLUS查询

SQL> select value,nlstype,dump(value) dv from yorker.test;

VALUE                NLSTYPE              DV

-------------------- -------------------- ------------------------------------

中文                 SQLPLUS default      Typ=1 Len=6: 228,184,173,230,150,135

显示正常,Oracle服务器读取字段的二进制内容,根据客户端的编码,转换成’中文‘在客户端编码对应的编码内容发送到客户端。

dump(value)就是服务器端’中文‘的16进制编码的内容,utf8的内容形式。

4在客户端设置 nls_lang后进入SQLPLUS

C:\>set nls_lang=american_america.utf8

C:\>sqlplus sys/sys as sysdba

SQL> select value,nlstype,dump(value) dv from yorker.test;

VALUE                          NLSTYPE                        DV

------------------------------ ------------------------------ --------------------------------------

涓枃                           SQLPLUS default                Typ=1 Len=6: 228,184,173,230,150,135

查询到的结果如上出现烂码,原因是SQLPLUS在查询的时候,告诉了Oracle服务器客户端的编码为UTF8,这时候Oracle不做转换把以UTF8编码的内容’中文‘发送到

SQLPLUS,而SQLPLUS却以操作系统的编码(比如ZHS16GBK)去识别这个内容,结果就是不能识别的烂码。set nls_lang=american_america.utf8后不以utf8编码的形式来识别字符是烂码的原因,Oracle存储的内容实施正确的,是utf8的正确形式,在别的客户端仍然可以正确显示(如默认方式的SQLPLUS,JAVA应用程序等)

5,在客户端设置为utf8的sqlplus插入数据

C:\>set nls_lang=american_america.utf8

C:\>sqlplus sys/sys as sysdba

SQL> insert into yorker.test values('中文','SQLPLUS UTF8');

这时候发生了一个“错误”,’中文‘是以操作系统的ZHS16GBK的编码格式发送到Oracle服务器的,同时sqlplus又告诉了服务器发送的编码是utf8,所以Oracle服务器不做转换把ZHS16GBK编码格式的’中文‘保存到了服务器的磁盘上,但是Oracle认为这个编码是utf8,下次如果别的客户端,不是utf8的客户段在查询的时候,Oracle做转换,这时候会转换不正确,因为ZHS16GBK编码格式的’中文‘在utf8里可能找不到对应的字符或者是不同的字符。

5,在客户端设置为utf8的sqlplus查询数据

C:\>set nls_lang=american_america.utf8

C:\>sqlplus sys/sys as sysdba

SQL> select value,nlstype,dump(value) dv from yorker.test;

VALUE                          NLSTYPE                        DV

------------------------------ ------------------------------ ---------------------------------------

中文                            SQLPLUS UTF8                   Typ=1 Len=4: 214,208,206,196

刚才以utf8的编码显示正确,这是因为“错上加错”就对了:sqlplus告诉Oracle客户端是utf8,Oracle不做转换直接把数据库保存的二进制内容发到了客户端,由于和保存的时候的内容是一致的,所以仍然能够正确显示。 

这时候如果客户段设置的nls_lang不是和服务器的utf8一样,服务器在发送到客户端之前做了一个’转换‘,显示就不对了,如下例:

??                 SQLPLUS UTF8         Typ=1 Len=4: 214,208,206,196

在一个JAVA的客户端应用程序中

private static void testEncoding() throws SQLException {

Connection conn = NONXADBUtil.getConnection("ORCL");

PreparedStatement sta = conn.prepareStatement("select value,nlstype,dump(value) dv from yorker.test");

ResultSet rset = sta.executeQuery();

while (rset.next()) {

System.out.println(rset.getString(1) + "   " + rset.getString(2) + "  "+ rset.getString(3) );

}

rset.close();

sta.close();

conn.close();

}

显示的内容如下:

中文   SQLPLUS default  Typ=1 Len=6: 228,184,173,230,150,135

  SQLPLUS UTF8  Typ=1 Len=4: 214,208,206,196

发生烂码的原因是,Oracle将’中文‘(214,208,206,196)以utf8的编码格式识别,识别出错,转换成JAVA客服端想要的字符这一步更是’错烂‘的完成的。