隨便写了个分词工具

随便写了个分词工具,用在内部的一个自然语言分析的小项目。地址在http://git.oschina.net/gavinguang/rongrong.git 。代码写得很乱,我会慢慢优化它。

买了个iphone4s只花了32块钱。分词后的结果:买/ 了/ 个/ iphone4s/ 只/ 花/ 了/ 32块/ 。/

目前能识别中英文混合词,数字+单位词。这个在内部的小项目中足够用了。

内部主要使用双向最大匹配算法。

原文地址:https://www.cnblogs.com/qgxiaoguang/p/NLP.html