mysql 中文匹配

2017-04-19

mysql 中文匹配

最近一个情感分析项目，由于采集到的评论数据中有不含中文的字符串，导致情感分析模型的准确度不高，需要过滤掉不包含中文的字符串。以下是BI报表上显示的分析结果。

查看后台数据库中的数据，如下图，绿色部分不包含中文字符的字段，是我们需要过滤掉。

在参考资料的2篇博客中，找到了对应的解决办法，用mysql里的HEX函数可以把字段转为16进制，然后正则匹配对应中文的code码。
我们的字段存储的是utf8，所以查询了utf8汉字编码对照表（如果你的是gbk系的就查对应的编码对照就可以了）
如下图，可以总结出utf8汉字编码16进制的正则匹配格式是： e[4-9][0-9a-f]{4}

以下是正则匹配包含中文的示例，

以下是正则匹配非中文字符的示例，

参考资料

[1] mysql_正则匹配中文

[2] utf8汉字编码16进制对照