说说 Encoding

前两天下了 CSDN账号数据库下来,碰到这么多数据,顺便就像测测数据库性能。

结果导入的时候发现 有些字符串进不去,部分字符 GBK  、UTF-8不兼容。。  最后搞定是用 GB13080 这个最新编码。

 转点 相关知识

转自:http://zh.wikipedia.org/wiki/GB_18030

GB 18030,最新版本为GB 18030-2005,其全称为中华人民共和国国家标准GB 18030-2005《信息技术 中文编码字符集》,是中华人民共和国现时最新的内码字集,是GB 18030-2000《信息技术 信息交换用汉字编码字符集 基本集的扩充》的修订版。与GB 2312-1980完全兼容,与GBK基本兼容,支持GB 13000Unicode的全部统一汉字,共收录汉字70244个。

GB 18030主要有以下特点:

  •  UTF-8 相同,采用多字节编码,每个字可以由1个、2个或4个字节组成。
  • 编码空间庞大,最多可定义161万个字符。
  • 支持中国国内少数民族的文字,不需要动用造字区。
  • 汉字收录范围包含繁体汉字以及日韩汉字

GB 18030标准的初版是GB 18030-2000《信息技术 信息交换用汉字编码字符集 基本集的扩充》,它是由中华人民共和国信息产业部电子工业标准化研究所、北京大学计算机技术研究所、北大方正集团、北京方正新天地信息网络科技有限责任公司、四通集团公司、中科院软件所、长城软件公司、四通利方公司、中软总公司、金山软件公司、联想公司起草,由国家质量技术监督局于2000年3月17日发布。GB 18030标准从生效之日期起,同时代替原国家技术监督局标准化司和原电子工业部科技与质量监督司联合以技监标函1995229号文发布和实施的技术规范指导性文件《汉字内码扩展规范(GBK)》1.0版。

现行版本GB 18030-2005《信息技术 中文编码字符集》为GB 18030标准的第一次修订版,由国家质量监督检验总局和中国国家标准化管理委员会于2005年11月8日发布,2006年5月1日实施。本标准的单字节编码部分、双字节编码部分和四字节编码部分的CJK统一汉字扩充A(即0x8139EE39--0x82358738)部分为强制性。本标准代替GB 18030-2000《信息技术 信息交换用汉字编码字符集 基本集的扩充》。

原文地址:https://www.cnblogs.com/abin30/p/2304743.html