elasticsearch 默认不支持检索hadoop

elasticsearch 支持多种类型的 gateway,有本地文件系统(默认),分布式文件系统,Hadoop 的 HDFS 和 amazon 的 s3 云存储服务。

那是0.x时代
早就被废弃了
代码结构都变了多少轮了

我估计它的做法是这样的:自己生成一个id,然后es里和hdfs上都用这个id,然后通过es搜索index拿到id以后,再去hdfs上get这个id对应的原始内容
这个做法三年前在es社区流行过一阵子
那时候还没有kibana呢都


 Elasticsearch之分词器的作用 Analyzer(分词器)的作用是把一段文本中的词按一定规则进行切分。

对啊。他们就是把索引放在es本地了,压根没放hdfs

存source原始数据啊


elk里,es的存储空间大概分为三部分:倒排索引、正排列、原数据。也就是index、doc_values、_source。各3分之一的样子。


它做纯业务搜索,可以不要docvalue,然后吧source放到hdfs上,那么es本地只要三分之一的空间。但是你做日志的,肯定要docvalue的。


倒排索引由在文档中出现的唯一的单词列表,以及对于每个单词在文档中的位置组成


从单词对应到文档则是倒排索引,又称反向索引


从文档中映射到单词是正向索引,而从单词对应到文档则是倒排索引



倒排索引是一种索引方法,被用来存储在全文搜索下某个单词在一个文档或者一组文档中的存储位置的映射。


分词都存储那些东西的 


分词都存储那些东西的 :倒排索引啊
是索引,分词是索引前的一个处理步骤而已。(业务系统里分词很重要,所以开发会用分词来代表这个;我们做日志的,分词很不重要,所以都直接说索引)



                                    
原文地址:https://www.cnblogs.com/hzcya1995/p/13349776.html