(转)oracle字符集与汉字
Oracle字符集引起的几个问题,常见的就是汉字占多少个字节,其次就是字符集导致数据库启动失败以及索引失效等问题
汉字占多少个字节?
select length('ABCDE中文字符串FG'),lengthb('ABCDE中文字符串FG') from dual;
就可以知道,一个汉字占了几个字节,也可以查看数据库的字符集
select * from nls_database_parameters where parameter ='NLS_CHARACTERSET';
当NLS_CHARACTERSET=AL32UTF8时(UTF-8是变长编码,每个Unicode代码点按照不同范围,可以有1-3字节的不同长度)
NLS_LENGTH_SEMANTICS=BYTE时,一个汉字代表三个字节
NLS_LENGTH_SEMANTICS=CHAR时,一个汉字代表一个字节
当NLS_CHARACTERSET=US7ASCII时(字符集为单字节)
NLS_LENGTH_SEMANTICS=BYTE时,一个汉字代表两个字节
NLS_LENGTH_SEMANTICS=CHAR时,一个汉字代表两个字节
Oracle与汉字问题相关的函数
注意:计算长度的几个方法区别如下:
LENGTH(string1) 返回以字符为单位的长度.
LENGTHB(string1) 返回以字节为单位的长度.
LENGTHC(string1) 返回以Unicode完全字符为单位的长度.
LENGTH2(string1) 返回以UCS2代码点为单位的长度.
LENGTH4(string1) 返回以UCS4代码点为单位的长度.
substr,substrb均为字符串截取函数,都带有三个参数,第一个参数为所要截取的字符串,第二个参数为strart(索引均从1开始),第三个参数为length。
substr是按照字来算的,而substrb()是按照字节来算的
关于substr,substrb的例子举例:
SQL> select substr('今天是个好日子',3,5) from dual;
----------
是个好日子
SQL> select substrb('今天是个好日子',3,5) from dual;
-----
天是
结论是substr是按照字来算的,而substrb()是按照字节来算的。看下面的例子:
SQL> select substr('abcdef',3,4) from dual;
----
cdef
SQL> select substrb('abcdef',3,4) from dual;
----
cdef
分析:对于字母来说,substr与substrb作用时一样的,但对于汉字来说,substr是按字来取值,而substrb是按字节来取值,当所取长度为奇数时,则自动舍弃最后一位字节。
类似的还有,
length与lengthb 长度计算函数
select length('你好') from dual ----output:2
select lengthb('你好') from dual ----output :4
Instr与Instrb 字符串查找函数 instr(原字符串,查的字符串,起始位置,第几个匹配) 返回字符串位置,找不到返回0 .
select instr('日日花前长病酒','花前',1,1) from dual ----output:3
select instrb('日日花前长病酒','花前',1,1) from dual ----output:7
Oracle字符集
安装数据库的时候可以设置字符集,不同版本可能默认的字符集是不一样的(以Oracle 9i为例子)
首先查看字符集:(注意:修改数据库字符集时必须谨慎,修改之前一定要为数据库备份。由于不能回退这项操作,因此可能会造成数据丢失或者损坏)
SQL> select name,value$ from props$ where name like '%NLS%'; NAME VALUE$
------------------------------ ------------------------------
NLS_LANGUAGE AMERICAN
NLS_TERRITORY AMERICA
NLS_CURRENCY $
NLS_ISO_CURRENCY AMERICA
NLS_NUMERIC_CHARACTERS .,
NLS_CHARACTERSET US7ASCII
NLS_CALENDAR GREGORIAN
NLS_DATE_FORMAT DD-MON-RR
NLS_DATE_LANGUAGE AMERICAN
……………….
NLS_NCHAR_CHARACTERSET AL16UTF16
NLS_RDBMS_VERSION 9.2.0.4.0 20 rows selected.
SQL> select name,dump(name) from eygle.test; NAME DUMP(NAME)
------------------------------------------------------
测试 Typ=1 Len=4: 178,226,202,212
Test Typ=1 Len=4: 116,101,115,116 2 rows selected.
转换字符集,你只能在新字符集是旧字符集严格超集的情况下使用这种方式转换。所谓超集是指:当前字符集中的每一个字符在新字符集中都可以表示,并使用同样的代码点比如很多字符集都是US7ASCII的严格超集.
如果不是超集,将获得以下错误:
- SQL> ALTER DATABASE CHARACTER SET ZHS16CGB231280;
- ALTER DATABASE CHARACTER SET ZHS16CGB231280*ERROR at line 1:ORA-12712: new character set must be a superset of old character set
转换字符集,数据库应该在RESTRICTED模式下进行:
- <p>c:\>sqlplus "/ as sysdba"
- SQL*Plus: Release 9.2.0.4.0 - Production on Sat Nov 1 10:52:30 2003
- Copyright (c) 1982, 2002, Oracle Corporation. All rights reserved.
- Connected to:
- Oracle9i Enterprise Edition Release 9.2.0.4.0 - Production
- With the Partitioning, Oracle Label Security, OLAP and Oracle Data Mining options
- JServer Release 9.2.0.4.0 - Production
- SQL> shutdown immediate
- Database closed.
- Database dismounted.
- ORACLE instance shut down.
- SQL> STARTUP MOUNT;
- ORACLE instance started.
- Total System Global Area 76619308 bytes
- Fixed Size 454188 bytes
- Variable Size 58720256 bytes
- Database Buffers 16777216 bytes
- Redo Buffers 667648 bytes
- Database mounted.
- SQL> ALTER SESSION SET SQL_TRACE=TRUE;
- Session altered.
- SQL> ALTER SYSTEM ENABLE RESTRICTED SESSION;
- System altered.
- SQL> ALTER SYSTEM SET JOB_QUEUE_PROCESSES=0;
- System altered.
- SQL> ALTER SYSTEM SET AQ_TM_PROCESSES=0;
- System altered.
- SQL> ALTER DATABASE OPEN;
- Database altered.
- SQL> set linesize 120
- SQL> ALTER DATABASE CHARACTER SET ZHS16GBK;
- ALTER DATABASE CHARACTER SET ZHS16GBK
- *
- ERROR at line 1:
- ORA-12721: operation cannot execute when other sessions are active
- SQL> ALTER DATABASE CHARACTER SET ZHS16GBK;
- ALTER DATABASE CHARACTER SET ZHS16GBK
- *
- ERROR at line 1:
- ORA-12716: Cannot ALTER DATABASE CHARACTER SET when CLOB data exists
- 在Oracle9i中,如果数据库存在CLOB类型字段,那么就不允许对字符集进行转换
- </p>
这时候,我们可以去查看alert<sid>.log日志文件,看CLOB字段存在于哪些表上:
- ALTER DATABASE CHARACTER SET ZHS16GBK SYS.METASTYLESHEET (STYLESHEET) - CLOB populatedORA-12716 signalled during: ALTER DATABASE CHARACTER SET ZHS16GBK...
对于不同情况,Oracle提供不同的解决方案,如果是用户数据表,一般我们可以把包含CLOB字段的表导出,然后drop掉相关对象,
转换后再导入数据库;对于系统表,可以按照以下方式处理:
- SQL> truncate table Metastylesheet;Table truncated.
- SQL> ALTER SESSION SET SQL_TRACE=TRUE;
- Session altered.
- SQL> ALTER DATABASE CHARACTER SET ZHS16GBK;
- Database altered.
- SQL> ALTER SESSION SET SQL_TRACE=FALSE;
- Session altered.
在9.2.0中,转换完成以后,可以通过运行catmet.sql脚本来重建Metastylesheet表:
SQL> @?/rdbms/admin/catmet.sql
通过Metastylesheet表来测试不同字符集的影响。
提示:
通过设置sql_trace,我们可以跟踪很多数据库的后台操作,这个工具是DBA常用的“利器”之一。
我们简单看一下数据库更改字符集时的后台处理,我提取了主要的更新部分。
通过以下跟踪过程,我们看到数据库在更改字符集的时候,主要更新了12张数据字典表,修改了数据库的原数据,这也证实了我们以前的说法:
这个更改字符集的操作在本质上并不转换任何数据库字符,只是简单的更新数据库中所有跟字符集相关的信息。
- update col$ set charsetid = :1
- where
- charsetform = :2
- update argument$ set charsetid = :1
- where
- charsetform = :2
- update collection$ set charsetid = :1
- where
- charsetform = :2
- update attribute$ set charsetid = :1
- where
- charsetform = :2
- update parameter$ set charsetid = :1
- where
- charsetform = :2
- update result$ set charsetid = :1
- where
- charsetform = :2
- update partcol$ set spare1 = :1
- where
- charsetform = :2
- update subpartcol$ set spare1 = :1
- where
- charsetform = :2
- update props$ set value$ = :1
- where
- name = :2
- update "SYS"."KOTAD$" set SYS_NC_ROWINFO$ = :1
- where
- SYS_NC_OID$ = :2
- update seq$ set increment$=:2,minvalue=:3,maxvalue=:4,cycle#=:5,order$=:6,
- cache=:7,highwater=:8,audit$=:9,flags=:10
- where
- obj#=:1
- update kopm$ set metadata = :1, length = :2
- where
- name='DB_FDO'
注意:通过前面 ” ALTER DATABASE CHARACTER
SET”
方式更改字符集时,Oracle至少需要更改12张数据字典表,而这种直接更新props$表的方式只完成了其中十二分之一的工作,潜在的完整性隐患是可
想而知的。而且通过更新props$表的方式修改字符集,在Oracle7之后就不应该被使用.
(转)oracle字符集与汉字的更多相关文章
- Oracle 一个中文汉字 占用几个字节,由Oracle中字符集编码决定
Oracle 一个中文汉字 占用几个字节,要根据Oracle中字符集编码决定 查看oracle server端字符集 select userenv('language') from dual; 如果显 ...
- ORACLE字符集基础知识
概念描叙 ORACLE数据库有国家字符集(national character set)与数据库字符集(database character set)之分.两者都是在创建数据库时需要设置的.国家 ...
- Oracle一个中文汉字占用几个字节
Oracle 一个中文汉字 占用几个字节,要根据Oracle中字符集编码决定 查看oracle server端字符集 select userenv('language') from dual; 如 ...
- 转Oracle字符集问题总结
Oracle字符集问题总结 分类: Oracle2006-06-04 13:48 1298人阅读 评论(3) 收藏 举报 oracle数据库sqlcharacter存储insert 作者: vston ...
- oracle字符集问题总结
在进行web开发和oracle安装的过程中经常有人对字符集搞不清楚,因此对此做一下总结. 1.第一个问题:字符集之间的区别是什么呢? 常见的字符集有:UTF-8和GBK (1)GBK字符集 G ...
- oracle 字符集
---- 在国内外大中型数据库管理系统中,把ORACLE作为数据库管理平台的用户比较多.ORACLE 不论是数据库管理能力还是安全性都是无可非议的,但是,它在汉字信息的显示方面着实给中国用户带来不少麻 ...
- Oracle 字符集问题
1 简介 ORACLE数据库字符集,即Oracle全球化支持(Globalization Support),或即国家语言支持(NLS)其作用是用本国语言和格式来存储.处理和检索数据.利用全球化支持,O ...
- 更改Oracle字符集避免乱码
如何更改Oracle字符集避免乱码 转一位大神的笔记. 国内最常用的Oracle字符集ZHS16GBK(GBK 16-bit Simplified Chinese)能够支持繁体中文,并且按照2个字符长 ...
- 转://oracle字符集
一.oracle字符集基础知识oracle数据库有国家字符集(national character set)与数据库字符集(database character set)之分.两者都是在创建数据库时需 ...
随机推荐
- 运行所有sdk目录下的示例,查看它们的功能,方便以后查寻
运行所有sdk目录下的示例,查看它们的功能,方便以后查寻
- Objective-C 类的继承、方法的重写和重载
一.类的继承 Objective-c中类的继承与C++类似,不同的是Objective-c不支持多重继承,一个类只能有一个父类,单继承使Objective-c的继承关系很简单,易于管理程序.Objec ...
- ssh: Could not resolve hostname gitcafe.com: nodename nor servname provided, or not known
今天 git push 的时候报如下错误: ssh: Could not resolve hostname gitcafe.com: nodename nor servname provided, o ...
- Jquery Highcharts 参数配置说明
chart: renderTo 图表的页面显示容器 defaultSeriesType 图表的显示类型(line,spline, scatter, splinearea bar,pie,area,co ...
- Kafka源码中的Producer Record定义
1.ProducerRecord 含义: 发送给Kafka Broker的key/value 值对 2.内部数据结构: -- Topic (名字) -- PartitionID ( 可选) -- Ke ...
- yum 一些命令
1)列出相关rpm包 yum list mysql* 2)使用指定源 yum --enablerepo=remi install [package] 3)卸载rpm包 yum remove mysql ...
- mysql 数据库常用命令总结
(1)查看数据库可以支持的存储引擎 命令:show engines; (2)查看表结构命令:desc table_name:(3)显示表的创建语句 show create table ta ...
- web.xml 中的listener、 filter、servlet 加载顺序
在项目中总会遇到一些关于加载的优先级问题,近期也同样遇到过类似的,所以自己查找资料总结了下,下面有些是转载其他人的,毕竟人家写的不错,自己也就不重复造轮子了,只是略加点了自己的修饰. 首先可以肯定的是 ...
- 10327 - Flip Sort
原文链接:http://uva.onlinejudge.org/index.php?option=com_onlinejudge&Itemid=8&category=24&pa ...
- Wiz发布cnblog笔记
[转自Wiz官网][插件]发布笔记到博客,更好的博客离线撰写工具 发表于 2011 年 2 月 23 日 由 admin 为知笔记支持绝大部分的博客离线撰写,可以方便地把笔记直接发布为博客. 使用 打 ...