mysql 中文匹配

2017-04-19

mysql 中文匹配

     最近一个情感分析项目,由于采集到的评论数据中有不含中文的字符串,导致情感分析模型的准确度不高,需要过滤掉不包含中文的字符串。以下是BI报表上显示的分析结果。

查看后台数据库中的数据,如下图,绿色部分不包含中文字符的字段,是我们需要过滤掉。

在参考资料的2篇博客中,找到了对应的解决办法,用mysql里的HEX函数可以把字段转为16进制,然后正则匹配 对应中文的code码。
我们的字段存储的是utf8,所以查询了utf8汉字编码对照表 (如果你的是gbk系的就查对应的编码对照就可以了)
如下图,可以总结出utf8汉字编码16进制的正则匹配格式是: e[4-9][0-9a-f]{4}

以下是正则匹配包含中文的示例,

以下是正则匹配非中文字符的示例,

参考资料

[1] mysql_正则匹配中文

[2] utf8汉字编码16进制对照

原文地址:https://www.cnblogs.com/cenliang/p/6732490.html