编码和字符集的关系 拂晓风起

今年来,用java和C++都在编码问题上花不了不少功夫,终于比较清晰的理解了乱码,转码等问题了。

之前6月份UC web笔试,做过一道题,就是说说对字符集和编码之间关系。

在这里再写写~~~

简单的理解就是:

编码是一种方案,一种编码对应着自己固有能表示的字符集。

例如最原始的ascii编码,就只能表示127个字符,后来扩展到255个字符~~

GB2312编码,又对应着几千个中文和其他符号的字符集。

GB2312可以理解为一种字符集(有人叫“编码字符集”),也可以理解为一种编码的方案(有人叫“字符集编码”)。

理解为字符集,就表示GB2312固有对应的几千个字符。

理解为编码的方案,就表示如何把一个汉字对应到二进制上(即字节上),例如GB2312用两个字节表示一个汉字,而UTF8用三个字节表示一个汉字。

这个文章可以参考以下:http://www.cnblogs.com/anran_guojianjun/archive/2008/12/27/1363465.html

另外需要注意的是Unicode编码,有点特殊,每个字符规定用2个字节存储~~跟ASCII有点对立的味道,哈哈~~

另外有一篇文章,写得挺风趣幽默的,说了编码发展的历史。虽然长,但看完之后应该有很深刻的理解。

http://www.cnblogs.com/uuhua/archive/2010/06/15/1758552.html

kenkofox@qq.com https://github.com/kenkozheng 欢迎投简历给我,一线大厂工作机会
原文地址:https://www.cnblogs.com/kenkofox/p/1851962.html