unicode

Unicode只有一个字符集，中、日、韩的三种文字占用了Unicode中0x3000到0x9FFF的部分 Unicode目前普遍采用的是UCS-2,它用两个字节来编码一个字符，比如汉字"经"的编码是0x7ECF,注意字符码一般用十六进制来表示，为了与十进制区分，十六进制以0x开头，0x7ECF转换成十进制就是32463,UCS-2用两个字节来编码字符，两个字节就是16位二进制， 2的16次方等于65536,所以UCS-2最多能编码65536个字符。编码从0到127的字符与ASCII编码的字符一样，比如字母"a"的Unicode 编码是0x0061,十进制是97,而"a"的ASCII编码是0x61,十进制也是97, 对于汉字的编码，事实上Unicode对汉字支持不怎么好，这也是没办法的，简体和繁体总共有六七万个汉字，而UCS-2最多能表示65536个，才六万多个，所以Unicode只能排除一些几乎不用的汉字，好在常用的简体汉字也不过七千多个，为了能表示所有汉字，Unicode也有UCS-4规范，就是用 4个字节来编码字符

中文名: Unicode码
外文名: Unicode

文字: 中、日、韩
字符: UCS-2
分类: 计算机科学

定义编辑

Unicode码扩展自ASCII字元集。在严格的ASCII中，每个字元用7位元表示，或者电脑上普遍使用的每字元有8位元宽；而Unicode使用全16位元字元集。这使得Unicode能够表示世界上所有的书写语言中可能用於电脑通讯的字元、象形文字和其他符号。Unicode最初打算作为ASCII的补充，可能的话，最终将代替它。考虑到ASCII是电脑中最具支配地位的标准，所以这的确是一个很高的目标。

Unicode影响到了电脑工业的每个部分，但也许会对作业系统和程式设计语言的影响最大。从这方面来看，我们已经上路了。Windows NT从底层支援Unicode。

目前计算机中用得最广泛的字符集及其编码，是由美国国家标准局(ANSI)制定的ASCII码（American Standard Code for Information Interchange，美国标准信息交换码），它已被国际标准化组织（ISO）定为国际标准，称为ISO 646标准。适用于所有拉丁文字字母，ASCII码有7位码和8位码两种形式。

方法编辑

因为1位二进制数可以表示（2∧1=）2种状态：0、1；而2位二进制数可以表示（2∧2）=4种状态：00、01、10、11；依次类推，7位二进制数可以表示（2∧7=）128种状态，每种状态都唯一地编为一个7位的二进制码，对应一个字符（或控制码），这些码可以排列成一个十进制序号0～127。所以，7位ASCII码是用七位二进制数进行编码的，可以表示128个字符。

第0～32号及第127号(共34个)是控制字符或通讯专用字符，如控制符：LF（换行）、CR（回车）、FF（换页）、DEL（删除）、BEL（振铃）等；

通讯专用字符：SOH（文头）、EOT（文尾）、ACK（确认）等；

第33～126号(共94个)是字符，其中第48～57号为0～9十个阿拉伯数字；65～90号为26个大写英文字母，97～122号为26个小写英文字母，其余为一些标点符号、运算符号等。

注意：在计算机的存储单元中，一个ASCII码值占一个字节(8个二进制位)，其最高位(b7)用作奇偶校验位。所谓奇偶校验，是指在代码传送过程中用来检验是否出现错误的一种方法，一般分奇校验和偶校验两种。奇校验规定：正确的代码一个字节中1的个数必须是奇数，若非奇数，则在最高位b7添1；偶校验规定：正确的代码一个字节中1的个数必须是偶数，若非偶数，则在最高位b7添1。

增添Unicode码内容：它前128个字符就是ASCII码，之后是扩展码。在它中，各个字符块基于同样的标准。其中有希腊字母，西里尔文，亚美尼亚文，希伯来文等。而汉文，韩语，日语的象形文字占用从0X3000到0X9FFF的代码。最杰出的地方是，它只有一个字符集，有效的避免了双字节字符集的二义性。缺点是：占用的内存空间比ASCII大2倍。

Unicode码：Unicode码也是一种国际标准编码，采用二个字节编码，与ASCII码不兼容。目前，在网络、Windows系统和很多大型软件中得到应用。

词条标签：

unicode

目录

定义编辑

方法编辑