用Regular expression寻找源代码中的汉字字符串

在平台改为支持多语言时,原来源代码中可能存在大量直接引用的字符串,需要改为由多语言模块翻译。
如果不能准确的搜索源代码,那么工作量将非常庞大。

在vc中使用Regular expression编写:
^[^#].*".*[\x4080-\xfffe]+.*"
匹配所有非预编译中的包含汉字的字符串。
\x4080-0xfffe其实超过了汉字集合,不过源代码里用到这些'特别'的字符的可能性并不大。

面对类似的恐怖的工作量,基本上都别靠蛮力。

btw,前几天学到一个awk工具。它也非常有用。它是一个数据驱动的文本处理工具。

原文地址:https://www.cnblogs.com/kaikai/p/345891.html