[NLP]文本去除非汉字字符

最近有个需求就是去除一个文本里面所有的非汉字字符。

unicide的汉字有个范围u4e00-u9fa5。所以这个范围内的留下来就可以了。

1 blog=u"【雅虎开始提示Chrome用户“升级”到Firefox】http://t.cn/RzHTFF5 国外有关浏览器、搜索引擎那些事儿,也是刀光剑影,恩怨江湖啊!@2gua ,你说尼?[挖鼻屎]"
2 blog_new = u""
3 for i in range(0,len(blog)):
4     if(blog[i]>=u'u4e00' and blog[i]<=u'u9fa5'):
5         blog_new = blog_new+blog[i]
6         
7 print blog_new

参考:http://ju.outofmemory.cn/entry/53571

原文地址:https://www.cnblogs.com/Sean-le/p/4791441.html