计算机基础 ---- 编码(er)

1、字符集与编码

字符集:字符组成的集合,汉字,字母,符号被收录到标准的字符集合

编码:规定每个字符使用一个字节还是多个字节存储,那些字节来存储的规定

  术语:字符编码(character encoding),字符映射(character map),字符集(character set)或者代码页(IBM称呼计算机的BIOS 所支持的字符集编码),在历史上往往是同种概念,即字符表(Repertoire) 中的字符如何编码为码元的流(stream of code units)-- 通常每个字符对应单个编码。

  码元(Code Unit 也称“代码单元”)指的是一个已编码的文本中具有最短的比特组合单元。

      对于UTF-8来说,码元是8比特长;

      对于UTF-16来说,码元是16比特长;

      对于UTF-32来说,码元是32比特长。

不同地方的编码标准:

  西欧标准:ISO-8859-1,ISO-8859-5,ISO-8859-6等等

  DOS字符集(又称IBM 代码页): CP437,CP737,CP850,CP852等等

  Windows字符集:Windows-1250,Windows-1251用于西里尔字母表,Windows-1252等等

  中国大陆港澳:GB 2312,EUC,GBK(规定文件为GB13000),GB 18030 等

2、常用的编码方式

常见的 ISO-8859-1,GBK,UTF-8 都属于什么方式来。

1、单字节字符编码 :  ISO-8859-1  

  ISO 8859-1,正式编号为ISO/IEC 8859-1:1998,又称Latin-1或“西欧语言”,是国际标准化组织内ISO/IEC 8859的第一个8位字符集。它以ASCII为基础,在空置的0xA0-0xFF的范围内,加入96个字母及符号,藉以供使用附加符号的拉丁字母语言使用。曾推出过 ISO 8859-1:1987 版。

ISO-8859-1的别名有: iso-ir-100, csISOLatin1, latin1, l1, IBM819. Oracle数据库称WE8ISO8859P1

原文地址:https://www.cnblogs.com/obge/p/11871346.html