文本文件和字符集

- 文本分成两种,一种叫做纯文本,还有一种叫做富文本
- 纯文本中只能保存单一的文本内容,无法保存内容无关的东西(字体、颜色、图片。。。)
- 富文本中可以保存文本以外的内容(word文档)
- 在开发时,编写程序使用的全都是纯文本!
- 纯文本在计算机底层也会转换为二进制保存,
将字符转换为二进制码的过程,我们称为编码
将二进制码转换为字符的过程,我们称为解码
编码和解码时所采用的规则,我们称为字符集
- 常见的字符集:
ASCII
- 美国人编码,使用7位来对美国常用的字符进行编码
- 包含128个字符
ISO-8859-1
- 欧洲的编码,使用8位
- 包含256个字符
GB2312
GBK
国标码,中国的编码
Unicode
万国码,包含世界上所有的语言和符号,编写程序时一般都会使用Unicode编码
Unicode编码有多种实现,UTF-8 UTF-16 UTF-32
最常用的就是UTF-8
- 乱码
编写程序时,如果发现程序代码出现乱码的情况,就要马上去检查字符集是否正确

原文地址:https://www.cnblogs.com/LO-ME/p/10365261.html