dbcs_百度百科

    dbcs

    目录

        简介
        处理方法

    编辑本段简介
    　　DBCS：double-byte character set
    　　最初的128个代码是ASCII,较高的128个代码中的某些总是跟随著第二个位元组。这两个位元组一起（称作首位元组和跟随位元组）定义一个字元，通常是一个复杂的象形文字。
    　　虽然中文、日文和韩文共用一些相同的象形文字，但显然这三种语言是不同的，而且经常是同一个象形文字在三种不同的语言中代表三件不同的事。Windows支援四个不同的双位元组字元集：内码表932（日文）、936（简体中文）、949（韩语）和950（繁体汉字）。只有为这些国家（地区）生产的Windows版本才支持DBCS。明白Unicode和DBCS之间的区别很重要。Unicode使用（特别在C程式设计语言环境里）宽字元集。Unicode中的每个字元都是16位元宽而不是8位元宽。在Unicode中，没有单单使用8位元数值的意义存在。相比之下，在双位元组字元集中我们仍然处理8位元数值。有些位元组自身定义字元，而某些位元组则显示需要和另一个位元组共同定义一个字元。
    编辑本段处理方法
    　　处理DBCS字串非常杂乱，但是处理Unicode文字则像处理有秩序的文字。您也许会高兴地知道前128个Unicode字元（16位元代码从0x0000到0x007F）就是ASCII字元，而接下来的128个Unicode字元（代码从0x0080到0x00FF）是ISO 8859-1对ASCII的扩展。Unicode中不同部分的字元都同样基於现有的标准。这是为了便於转换。希腊字母表使用从0x0370到0x03FF的代码，斯拉夫语使用从0x0400到0x04FF的代码，美国使用从0x0530到0x058F的代码，希伯来语使用从0x0590到0x05FF的代码。中国、日本和韩国的象形文字（总称为CJK）占用了从0x3000到0x9FFF的代码。