搜索引擎中用到的一些拆词方式解析

  •   单词多形态(Word Stemming)

  单词多态,主要是关系到单词的词根( stem of a word )和通过这个词根变化出来的多个词的过程(Word Stemming),比如,works, 词根是work,可以变成Worker,Workers,Working,Worked等。搜索引擎可以利用这个特点进行词根匹配搜索。但它不是指“近义词”。

  •  断词(Word Truncation)

  断词是取单词的一部分加上通配符进行搜索。比如:Wor* 可以搜索出Work,Worker,Working等等的单词。

  •  近义词(Synonyms)
  近义词非常容易理解,就是意义相近,或者意义相同但叫法不同。比如“知了”和“蝉”等。
  据了解,Google不支持Word Stemming和Word Truncation。百度也有不少新的语法,可能大家都不知道,可以多去了解一下,比如用“-”号表示排除等。

(博客中都为原创,引用请注明出处,风焰庄主)
原文地址:https://www.cnblogs.com/fyan888/p/SearchEngineer.html