elasticsearch基础

elastic使用lucene建立索引的步骤中，需要文件系统缓存需要同步到磁盘上。（多个segment->commit文件来维护）

当建立历史数据时，并不要求太高的实时性时，可以减小（默认1s）自动刷新时间。

curl -XPOST http://127.0.0.1:9300/logstash-2016.12.19/_settings -d '{"refresh_interval":"10s"}'

如需关闭

curl -XPOST http://127.0.0.1:9300/logstash-2016.12.19/_settings -d '{"refresh_interval":"-1"}'

translog保证索引的一致性。elastic中的update，insert等写操作完成，一定会触发translog到磁盘上，然后再返回200。这个过程会损失一点性能。

如果不考虑这些，希望性能优先，可以在index template中设置 index.translog.durability:async

lucene的思路就是开新文件。默认1s就有一个文件产生。ES会不断在后台merge segment。

并不是所有大小的segment都会被merge，考虑性能的问题，大于5G的segment不会被merge。一般采用的策略是负载较低的时候通过forcemerge接口归并。

curl -XPOST http://127.0.0.1:9300/logstash-2016.12.19/_forcemerge?max_num_segments=1

_forcemerge对资源消耗比一般的多。

route和replica的过程：

每条数据都有一个routing值，默认是_id。

shard ＝ hash（routing）％ number_of_primary_shards

这个运算决定了数据被分配到的分片。一般分片数不能随意改，不然会导致路由不对。

5节点集群。副本1个，索引主分片10。每个节点分配4个分片。但配置的时候要多一点，因为机器可能出故障。

elasticsearch crud：

create： curl -XPOST http://127.0.0.1:9200/logstash-2015.06.10/testlog -d '{name:"test", age:11}' 返回值会带_id假设为_id1

read: curl -XGET http://127.0.0.1:9200/logstash-2015.06.10/testlog/_id1

delete: curl -XDELETE http://127.0.0.1:9200/logstash-2015.06.10/testlog/_id1 支持通配符

update: curl -XPOST http://127.0.0.1:9200/logstash-2015.06.10/testlog/_id1 -d '{name:"test", age:11}'

或者 curl -XPOST http://127.0.0.1:9200/logstash-2015.06.10/testlog/_id1/_update -d '{doc: { "name": "test1"} }'

或者 curl -XPOST http://127.0.0.1:9200/logstash-2015.06.10/testlog/_id1/_update -d '{script: "ctx._source.name = "test1"" }'

search:

curl -XGET http://127.0.0.1:9200/logstash-2015.06.10/testlog/_search?q=name:"test"

NOT AND OR组合搜索必须大写

比如user:("test1" OR "test2") AND NOT mesg:first;

_exits_要求存在 _missing_:user 要求不存在

聚合：1.0之前叫做facet，1.0之后叫做aggregation