ubuntu 与 windows 默认字符编码不一致,导致跨平台时常常出现乱码问题。
搜索出来的攻略又是一贯的坑爹节奏。
通常攻略的解决方法是修改ubuntu的默认字符编码为 gbk或者gb2312。
个人认为,为了兼容部分windows文件,修改linux系统默认字符编码,并不是最优解决方案。
原因:
1、ubuntu下,处理utf-8编码的情况远多于gbk或gb2312.
尤其是代码源文件,通常是ascii或utf-8编码。
2、gb系编码,目前相对混乱。
使用最多的是gb2312,但支持字符太少,难以满足日常应用。很多攻略都建议修改为gb2312。
GBK,gb2312的替代者,扩展了支持的字符,但亦有一些不支持的生僻字。
GB18030,支持的字符较多,但与一些程序可能存在不兼容的问题。
解决方案:
1、系统默认字符编码不变,增加gb系字符编码作为系统支持的字符编码。
sudo vim /var/lib/locales/supported.d/local 增加:
zh_CN.GB18030 GB18030
zh_CN.GBK GBK
保存退出后执行:sudo locale-gen
sudo vim /etc/environment
确认编码均为UTF-8
vim .profile 确认没有修改当前用户的字符编码。
2、修改 vim 字符编码
"encoding
:set encoding=utf-8
:set fileencodings=utf-8,gb18030
:set fileencoding=utf-8
:set termencoding=utf-8
vim 字符编码说明:
Vim 有四个跟字符编码方式有关的选项,encoding、fileencoding、fileencodings、termencoding
* encoding: Vim 内部使用的字符编码方式,包括 Vim 的 buffer (缓冲区)、菜单文本、消息文本等。
如果vim的encoding为utf-8,所编辑的文件采用GBK编码,
vim会自动将读入的文件转成utf-8,而写入文件时,自动转回成GBK(文件的保存编码).
* fileencoding: Vim 中当前编辑的文件的字符编码方式,保存文件时也会将文件保存为这种字符编码方式。
* fileencodings: Vim自动探测fileencoding的顺序列表,启动时会按照它所列出的字符编码方式逐一探测即将打开的文件的字符编码方式,并且将 fileencoding 设置为最终探测到的字符编码方式。因此最好将Unicode 编码方式放到这个列表的最前面,将拉丁语系编码方式 latin1 放到最后面。
* termencoding: Vim 所工作的终端 terminal 的字符编码方式。如果vim所在的term与vim编码相同,则无需设置。如其不然,你可以用vim的termencoding选项将自动转换成term 的编码.这个选项在 Windows 下对我们常用的 GUI 模式的 gVim 无效,而对 Console 模式的Vim 而言就是 Windows 控制台的代码页,并且通常我们不需要改变它。
Vim 的多字符编码方式支持的工作方式:
1. Vim 启动,根据 .vimrc 中设置的 encoding 的值来设置 buffer、菜单文本、消息文的字符编码方式。
2. 读取需要编辑的文件,根据 fileencodings 中列出的字符编码方式逐一探测该文件编码方式。并设置 fileencoding 为探测到的,看起来是正确的 (注1) 字符编码方式。
3. 对比 fileencoding 和 encoding 的值,若不同则调用 iconv 将文件内容转换为encoding 所描述的字符编码方式,并且把转换后的内容放到为此文件开辟的 buffer 里,此时我们就可以开始编辑这个文件了。注意,完成这一步动作需要调用外部的 iconv.dll(注2),你需要保证这个文件存在于 $VIMRUNTIME 或者其他列在 PATH 环境变量中的目录里。
4. 编辑完成后保存文件时,再次对比 fileencoding 和 encoding 的值。若不同,再次调用 iconv 将即将保存的 buffer 中的文本转换为 fileencoding 所描述的字符编码方式,并保存到指定的文件中。同样,这需要调用 iconv.dll由于 Unicode 能够包含几乎所有的语言的字符,而且 Unicode 的 UTF-8 编码方式又是非常具有性价比的编码方式 (空间消耗比 UCS-2 小),因此建议 encoding 的值设置为utf-8。这么做的另一个理由是 encoding 设置为 utf-8 时,Vim 自动探测文件的编码方式会更准确 (或许这个理由才是主要的 ;)。我们在中文 Windows 里编辑的文件,为了兼顾与其他软件的兼容性,文件编码还是设置为 GB2312/GBK 比较合适,因此 fileencoding 建议设置为 chinese (chinese 是个别名,在 Unix 里表示 gb2312,在 Windows 里表示cp936,也就是 GBK 的代码页)。