UNICODE GBK UTF-8等文本编码(理解+实践)

1.对编码的个人理解

一类是ASCII码,学C语言时接触到的,只能编码基本字符;
另外就是ANSI编码和UNICODE编码,这两类是编码标准,他有多种实现(就像H264标准一样)。
对于ANSI编码标准,简体中文对其实现有GBKGB2312GB18030 等编码(就像AVC一样,是H264标准的一种实现),繁体中文,日文有其他编码实现.
对于UNICODE编码标准,是国际通用编码,具体实现有
UTF-16 UTF-16LE UTF-16BE UCS-2  UTF-8等。
win8ubututu编码名称对应关系如下

Windows(win8 enterprise x64 zh) notepad

linux(ubuntu14.04 x64 en) gedit

ANSI

GB2312 GB18030 GBK

Chinese simplified

UNICODE

UTF-16 UTF-16LE UCS-2

UNICODE


UNICODE big endian

UTF-16 UTF-16BE

UTF-8

UTF-8




2.ubuntu下对编码方式转换

使用gedit打开,另存为可以选择编码方式。


3.使用enca查看文本编码方式(不怎么好用)

sudo apt-get install enca

enca -L zh_CN filename

ref http://blog.csdn.net/jnbbwyth/article/details/6991425/

古有内事不决问张昭,外事不决问周瑜; 今有生活不懂问百度,学术不懂问谷歌。 (SunQuan)The inner undecided ask ZhangZhao, the outer undecided ask ZhouYu. (I)Life unknown ask Baidu, academic unknown ask Google.
原文地址:https://www.cnblogs.com/luoyanghero/p/4307332.html