elasticsearch 中文分词

ik分词器-下载地址:https://github.com/medcl/elasticsearch-analysis-ik
拼音分词器-下载地址:https://github.com/medcl/elasticsearch-analysis-pinyin
ansj中文分词器-下载地址:https://github.com/NLPchina/elasticsearch-analysis-ansj/tags
IKanalyzer、ansj_seg、jcseg三种中文分词器的实战较量 参考:https://www.cnblogs.com/lies-joker/p/4203788.html

elasticsearch 自带默认分词器,不指定的text类型会使用Standard Analyzer进行分词
Standard Analyzer 是默认的分析器。它提供了基于语法的标记化(基于Unicode文本分割算法),适用于大多数语言

ik分词器
ik_smart 分的很少
ik_max_word 分的很细

ansj中文分词器
index_ansj (建议索引使用) 是索引分词,尽可能分词处所有结果
query_ansj (建议搜索使用) 是搜索分词,是索引分词的子集,保证了准确率
dic_ansj 是用户自定义词典优先策略

拼音分词器

GET _analyze
{
  "text": "刘德华",
  "analyzer": "pinyin"
}
GET _analyze
{
  "analyzer":"ik_smart",
  "text":"中华人民共和国国歌"
}


GET _analyze
{
  "analyzer":"ik_max_word",
  "text":"中华人民共和国国歌"
}


GET _analyze
{
  "analyzer":"query_ansj",
  "text":"中华人民共和国国歌"
}

GET _analyze
{
  "analyzer":"index_ansj",
  "text":"中华人民共和国国歌"
}


原文地址:https://www.cnblogs.com/daikainan/p/14394849.html