分词器

分词器,是将用户输入的一段文本,分析成符合逻辑的一种工具。
现在的分词器没有办法做到完全的符合人们的要求。
分词器有英文分词器和中文分词器,分词过程如下:
英文的分词器过程:输入文本-关键词切分-去停用词-形态还原-转为小写
  这里需要注意:查询索引时及时原文中都是大写也需要将其全部转换为小写
中文的分词器分为:
  单子分词 例:中国人 分成中,国,人
  二分法人词:例 中国人:中国,国人
  词典分词:有基本的语意来进行分词的,例:中国人分成中国,国人,中国人,
  极易分词
  庖丁分词
扩展:
停用词:不影响语意的词。
原文地址:https://www.cnblogs.com/sxpy-lj/p/7365980.html