Elasticsearch分词

分词器介绍

　　Elasticsearch作为全文检索服务是需要将输入的搜索关键字，也就是字符串进行一定规则的拆分，而拆分搜索关键字为一个个词，这部分功能是有ES的分词器来完成的。分词器（analyzer）接受一个字符串作为输入，将这个字符串拆分成独立的词或语汇单元（token）（可能会丢弃一些标点符号等字符），然后输出一个语汇单元流（token stream）。ES内部也集成了分词器。

　　ES中文分词器有常见四种

　　　　1. Standard：ES默认的分词器，将词汇单元转换为小写形式，并且去除停用词（在信息检索中，为节省存储空间和提高搜索效率，在处理自然语言数据或文本之前或之后会自动过滤掉某些字或词）、标点符号，支持中文（单字切分）。

　　　　2. Simple：通过非字母字符来分割文本信息，然后将词汇单元统一转换为小写形式，会去除掉数字类型的字符。

　　　　3. Whitespace：仅仅是去除空格、小写，不支持中文，对分割的词汇单元不做标准化的处理。