将 locale 从 zh_CN.GB2312 转到 zh_CN.UTF8 的一些成就和处理处罚步调

Toy Posted in Tips

不绝想把本人的 Linux box 从 zh_CN.GB2312 的 locale 设置迁移到 zh_CN.UTF-8 上去，无法之前的年夜量的实行中用到的文件都是 GB2312 编码的，以是，这个迁移直到最近由为要在一个工具上添加 UTF-8 编码的中文支撑才得以完成。以下是我在这个迁移的历程遇到的一些和中文相关的成就以及我小我的处理处罚步调，列此一来备忘，二来进展能给有相反需求的朋友做个参考。

提醒：以下提及的工具中的年夜局部会对你的原始文件举行”写”行使，也便是说，转换出来的效果可以会孕育产生发火错误或者倾向。如果你不是一个有经历的 Linux 用户，请在做这些行使的时刻，细致先做好备份。并激烈发起你在运用某一个工具之前，先细致阅读该工具的 manual。(”man program-name”)

0、支撑 Unicode 的 Terminal 工具

我选择 Terminal 工具的准绳是：轻量（占用系统本钱小）且弱小。基于之前我的一个大略评测，我目前用的 Terminal 工具是 rxvt-unicode 加 screen。xterm 对 unicode 的支撑可以是最差的，除此之外，mlterm、GNOME-terminal 等工具固然都能很好的支撑 unicode，不过 mlterm 的 multi tab 成效在我更习俗于运用”screen”来做 multi tab 这点上显得有点多余；而 gnome-terminal 则太甚于耗本钱。rxvt-unicode 则恰好合我的胃口，尤其是它的 server client 的体式格局可以在开启多个 Terminal 的时刻挥霍年夜量的系统本钱。:)

1、文件内容的编码检测及转换

文件内容的编码转换可以连合 2 个工具来完成。

a.如果你不晓得你所要转换的文件的编码格局，你可以经由 enca 这个工具来检测编码。举例如下：

joseph@PeT43: ~ > enca foo.txt

Universal transformation format 8 bits; UTF-8

b.如果你事前已经晓得了文件的编码或者经由检测晓得了文件的编码，可以经由 GNU 的 iconv 来举行编码转换。以下是一个例子用来把文件的编码从 GB2312 转换成 UTF-8：

joseph@PeT43: ~ > iconv -f gb2312 -t utf-8 foo.txt > foot.txt.utf-8

提醒：iconv 的输入默许是间接输入到典型输入(standard output)，素日便是你的屏幕上。以是，你须要运用”>”的重定向标记来把输入转存到一个”新”的文件皮相去。切不行在”>”前面运用你的原始的输入文件名作为输入文件名，因为”>”行使，会起首将其前面的文件清空，然后再运转 “>”前面的行使。也便是说，除了原始的输入文件被清空之外，你什么也得不到。这是良多 Linux 新用户屡屡会犯的一个”致命”错误。特此提醒。

2、文件名的编码转换

上述的 2 个工具只能对文件的内容举行编码的检测和转换，如果须要对文件名举行编码转换，则须要 convmv 来完成。convmv 的用法年夜致和 iconv 雷同，以下是一个例子用来将”music”这个目次下的所有以 GB2312 编码的文件名的文件和子目次下的文件，转换成以 UTF-8 编码的文件名：

joseph@PeT43: ~ > convmv -f gb2312 -t utf-8 -notest -r music

请细致这里的”-notest”选项：如果不提供这个选项，该敕令只会做一个转换的测试，并不会真正的转换。因为这个敕令有必定的”损坏性”，以是，当你用这个程序的时刻，最好是先不消”-notest”这个选项来做一遍测试，凭据程序运转输入的信息来确定能否有一样平时的文件须要手动举行调解排遣。

3、MP3 的 ID3 tag 编码转换

一个较量扰人的成就是，MP3 皮相的 ID3(v1/v2) Tag 信息不克不及象通俗的文本文件那样来用 iconv 举行编码转换。幸亏这个成就 Feng Zhou 也遇到了，他写了一个 java 的程序 ID3iconv 来处理处罚这些 MP3 文件的 ID tag 编码转换。

略出缺乏的是，这个程序没有提供一个雷同于上面提及的 convmv 的”-r”(recursive)的选项可以来对某一个目次下的所有文件和子目次下的文件举行递归的处理处罚。固然，我们可以用万能的“find”敕令来赔偿这个缺陷，以下是一个例子，用来对”music” 目次皮相的所有 mp3 文件（含子目次下的文件）举行 ID3 tag 的转换:

joseph@PeT43: ~ > find . -name '*.mp3' -exec java -jar /usr/local/bin/id3iconv-0.2.1.jar -e gb2312 '{}' \;

这个敕令运用到了”find”敕令的”-exec”选项来对所有找到的文件举行指定的行使，这里“指定的行使”便是对该文件调用 id3iconv 这个 java 的程序来举行 ID3 tag 的编码格局转换。皮相请参考 find 的 manual (man find)。

4、在 rxvt-unicode terminal 中实时改变 locale 设置

我所遇到的一个较量扰人的成就是，虽但是今一样平时的行使年夜都是在 UTF-8 的 locale 下举行的，但是良多时刻我又须要一个基于 GB2312 的 rxvt- unicode 来跑本来的一些实行。大略的在一个现有的 rxvt-unicode session 下经由”export LC_CTYPE=zh_CN.GB2312″其实并不生效。因为那只是通知你的 bash 程序，以后的 locale 变成了 zh_CN.GB2312，而 rxvt-unicode 程序本人却仍然义务在它启动时刻的 zh_CN.UTF-8 的 locale 下。以是，即使改变了 bash 的 locale 设置，但如果在该 rxvt-unicode 中用 cat 或者 more 何等的敕令来反省一个以 zh_CN.GB2312 的文件，仍然看到是一堆乱码。

在这种景遇下，一种不须要从头设置 X 系统的 locale，实时修改运转形态下的 rxvt-unicode 本人的 locale 设置的处理处罚方案是运用 rxvt-unicode 内置的”escape sequence”来完成。

如下的 2 个敕令组合，先变革 bash 的 locale 设置，然后经由”escape sequence”通知 rxvt-unicode 程序，目前这个 session 的 locale 设置已经被改成了 zh_CN.GB2312：

joseph@PeT43: ~ > export LC_CTYPE=zh_CN.gb2312; printf "\33]701;$LC_CTYPE\007"

何等，你就实时的取得一个 zh_CN.GB2312 的景遇，可以对 zh_CN.GB2312 的文件举行准确的显式和行使了。

如果须要转回到 zh_CN.UTF-8 的体式格局，则可以经由如下的敕令来完成：

joseph@PeT43: ~ > export LC_CTYPE=zh_CN.utf8; printf "\33]701;$LC_CTYPE\007"

固然，每次敲这么长的敕令挺烦人的，我用的步调是把上面的这 2 个敕令集合离去存成 .bash.gb 和 .bash.utf-8 两个文件，放到我的 home 目次。

如果我须要实时取得一个 GB2312 的 rxvt-unicode session，我就运转：

joseph@PeT43: somewhere > source ~/.bash.gb

如果我须要实时取得一个 UTF-8 的 rxvt-unicode session，我就运转：

joseph@PeT43: somewhere > source ~/.bash.utf-8

何等就免却了良多敲键盘或者 copy/paste 的时间。:)

这个步调是从 rxvt-unicode 的 FAQ 中学来的。这个”701″的 escape sequence 是 rxvt-unicode 对 xterm 的 escape sequence 的扩展，只在 rxvt-unicode 中有效。

[在 GNOME Terminal 皮相可以经由菜单皮相的”Terminal|Set Character Encoding”来实时变革 locale。]

5、VIM 设置文件的更新

我是一个 VIMmer，以下是一些我在 UTF-8 景遇下的 vim 的设置：

set encoding=utf-8 " set default encoding as UTF-8

set fileencodings=ucs-bom,utf-8,cp936,latin1 " fileconding detection order

set termencoding=utf-8 " support Chinese display in rxvt-unicode

6、Misc

以下是一些小才智，大略摆列在上面。

a. 在做编码转换的时刻，如果你的源格局设定为 GB2312 的话，而且在转换成 UTF-8 的时刻，发现程序会报“illegal input sequence at position xxxx”的错误。这是因为你之前的做的假定有成就。GB2312 是国标皮相一个最小也是最早的中文编码典型。此中，只涵盖了 6,763 个汉字。以是你须要转换的文件的原始的格局可以并不是 GB2312 编码。这个时刻，你可以用 GB18030 做为源格局来举行转换。GB18030 是最新的国家典型，包罗了 27,564 个汉字，而且向下兼容 GB2312 和 GBK。

b.别的，支撑 Unicode 且 Free 的中笔墨库我推荐运用”文泉驿“。这似乎也是目前为止，独一的一个以支撑 Unicode 为动身点的 Free 的中笔墨库。

7、一些有效的参考：

a. Markus Kuhn 的”UTF-8 and Unicode FAQ for Unix/Linux“。最为详尽的 FAQ。

b. Unicode Home Page。Unicode 的官方网站。

c. A Quick Primer On Unicode and Software Internationalization Under Linux and UNIX。 Ed Trager 提供的一个关于若安在 Linux 下运用 Unicode 的 tutorial，涵盖了一些我没有提及的内容。推荐阅读。

版权声明： 原创作品，允许转载，转载时请务必以超链接形式标明文章原始因由、作者信息和本声明。不然将穷究功令责任。