elasticsearch 入门

1、引入elasticsearch 需要的jar包

        <!--elasticsearch-->
        <dependency>
            <groupId>org.springframework.boot</groupId>
            <artifactId>spring-boot-starter-data-elasticsearch</artifactId>
        </dependency>

2、在application.properties中添加elasticsearch配置

spring.data.elasticsearch.cluster-name=xxx（你的elasticsearch的名称）
spring.data.elasticsearch.cluster-nodes=xxxxx:9300,xxxxxxx:9300
spring.data.elasticsearch.repositories.enabled=true

3、创建实体类

/**
 * indexName(索引名称):对应数据库名称
 * type:表名称
 */
@Document(indexName="wx_log_index",type="accountinfo",shards=5,replicas=1,refreshInterval="-1")
public class Account {
    @Id
    private String id;
    private String nickName;
    private String accountName;
    public String getId() {
        return id;
    }
    public void setId(String id) {
        this.id = id;
    }
    public String getNickName() {
        return nickName;
    }
    public void setNickName(String nickName) {
        this.nickName = nickName;
    }
    public String getAccountName() {
        return accountName;
    }
    public void setAccountName(String accountName) {
        this.accountName = accountName;
    }
 
}

4、编写Reposity相当于数据库连接的dao层

@Component("elasticAccountInfoRepository")
public interface ElasticAccountInfoRepository extends ElasticsearchRepository<Account, String> {
}

5、编写Service和实现类

public interface ESAccountInfoService {
    Account queryAccountInfoById(String id);
 
    Account save(Account c);
}
 
@Service("esAccountInfoServiceImpl")
@Transactional
public class ESAccountInfoServiceImpl implements ESAccountInfoService {
 
    @Autowired
    private ElasticAccountInfoRepository elasticAccountInfoRepository;
 
    @Override
    public Account queryAccountInfoById(String id) {
        return elasticAccountInfoRepository.queryAccountInfoById(id);
    }
 
    @Override
    public Account save(Account c) {
        return elasticAccountInfoRepository.save(c);
    }
 
}

6、编写Controller

@RestController
@RequestMapping("/account")
public class ESController {
 
    @Autowired
    private ESAccountInfoService esAccountInfoServiceImpl;
 
    @RequestMapping(value = "/add", method = RequestMethod.POST)
    public void addUserToEs(@RequestBody @NonNull Account account) {
        System.out.println("进入es添加方法");
        esAccountInfoServiceImpl.save(account);
    }
 
    @RequestMapping(value = "/get", method = RequestMethod.GET)
    public Account get(@RequestParam("id") String id) {
        System.out.println("进入es查询方法");
        Account acount = esAccountInfoServiceImpl.queryAccountInfoById(id);
        System.out.println(acount.getAccountName());
        return acount;
    }
}

整个实现逻辑就是以上那么多步骤。此时还缺少一个客户端。

下载链接：https://github.com/ElasticHQ/elasticsearch-HQ

以下是安装客户端和连接客户端详细步骤，首先你的电脑要安装python

Download or clone the repository https://github.com/ElasticHQ/elasticsearch-HQ
Navigate to the root of the repository: pip install -r requirements.txt
Start the server: python3 application.py
Point your browser to: http://localhost:5000

参考文档：http://www.cnblogs.com/eggTwo/p/4039779.html

以下是对elasticsearch 学习的一些总结：

一、Elasticsearch 文档更新和删除过程描述

删除和更新也都是写操作，但是Elasticsearch中的文档是不可变的，因此不能被删除或者改动以展示其变更；
磁盘上的每个段都有一个相应的.del文件。当删除请求发送后，文档并没有真的被删除，而是在.del文件中被标记为删除。该文档依然能匹配查询，但是会在结果中被过滤掉。当段合并时，在.del文件中被标记为删除的文档将不会被写入新段。
在新的文档被创建时，Elasticsearch会为该文档指定一个版本号，当执行更新时，旧版本的文档在.del文件中被标记为删除，新版本的文档被索引到一个新段。旧版本的文档依然能匹配查询，但是会在结果中被过滤掉。

二、在并发情况下，Elasticsearch如果保证读写一致？

可以通过版本号使用乐观并发控制，以确保新版本不会被旧版本覆盖，由应用层来处理具体的冲突；
另外对于写操作，一致性级别支持quorum/one/all，默认为quorum，即只有当大多数分片可用时才允许写操作。但即使大多数可用，也可能存在因为网络等原因导致写入副本失败，这样该副本被认为故障，分片将会在一个不同的节点上重建。
对于读操作，可以设置replication为sync(默认)，这使得操作在主分片和副本分片都完成后才会返回；如果设置replication为async时，也可以通过设置搜索请求参数_preference为primary来查询主分片，确保文档是最新版本。

三、分布式搜索背景介绍：

　　ES 天生就是为分布式而生，但分布式有分布式的缺点。比如要搜索某个单词，但是数据却分别在 5 个分片（Shard)上面，这 5 个分片可能在 5 台主机上面。因为全文搜索天生就要排序（按照匹配度进行排名） ,但数据却在 5 个分片上，如何得到最后正确的排序呢？ ES是这样做的，大概分两步：
　　step1、 ES 客户端将会同时向 5 个分片发起搜索请求。
　　step2、这 5 个分片基于本分片的内容独立完成搜索，然后将符合条件的结果全部返回。

客户端将返回的结果进行重新排序和排名，最后返回给用户。也就是说，ES的一次搜索，是一次scatter/gather过程（这个跟mapreduce也很类似）。

具体步骤如图所示：

四、Elasticsearch的搜索类型（SearchType类型）

1、 query and fetch
　　向索引的所有分片（ shard）都发出查询请求，各分片返回的时候把元素文档（ document）和计算后的排名信息一起返回。
　　这种搜索方式是最快的。因为相比下面的几种搜索方式，这种查询方法只需要去 shard查询一次。但是各个 shard 返回的结果的数量之和可能是用户要求的 size 的 n 倍。
　　优点：这种搜索方式是最快的。因为相比后面的几种es的搜索方式，这种查询方法只需要去shard查询一次。
　　缺点：返回的数据量不准确，可能返回(N*分片数量)的数据并且数据排名也不准确，同时各个shard返回的结果的数量之和可能是用户要求的size的n倍。

2、 query then fetch（ es 默认的搜索方式）

　　如果你搜索时，没有指定搜索方式，就是使用的这种搜索方式。这种搜索方式，大概分两个步骤：
　　第一步，先向所有的 shard 发出请求，各分片只返回文档 id(注意，不包括文档 document)和排名相关的信息(也就是文档对应的分值)，然后按照各分片返回的文档的分数进行重新排序和排名，取前 size 个文档。
　　第二步，根据文档 id 去相关的 shard 取 document。这种方式返回的 document 数量与用户要求的大小是相等的。
　　优点：
　　　　返回的数据量是准确的。
　　缺点：
　　　　性能一般，并且数据排名不准确。

3、 DFS query and fetch
　　这种方式比第一种方式多了一个 DFS 步骤，有这一步，可以更精确控制搜索打分和排名。也就是在进行查询之前，先对所有分片发送请求，把所有分片中的词频和文档频率等打分依据全部汇总到一块，再执行后面的操作、
　　优点：
　　　　数据排名准确
　　缺点：
　　　　性能一般
　　　　返回的数据量不准确，可能返回(N*分片数量)的数据

4、 DFS query then fetch
　　比第 2 种方式多了一个 DFS 步骤。
　　也就是在进行查询之前，先对所有分片发送请求，把所有分片中的词频和文档频率等打分依据全部汇总到一块，再执行后面的操作、

　　优点：
　　　　返回的数据量是准确的
　　　　数据排名准确
　　缺点：
　　　　性能最差【这个最差只是表示在这四种查询方式中性能最慢，也不至于不能忍受，如果对查询性能要求不是非常高，而对查询准确度要求比较高的时候可以考虑这个】

　　DFS 是一个什么样的过程？
　　从 es 的官方网站我们可以发现， DFS 其实就是在进行真正的查询之前，先把各个分片的词频率和文档频率收集一下，然后进行词搜索的时候，各分片依据全局的词频率和文档频率进行搜索和排名。显然如果使用 DFS_QUERY_THEN_FETCH 这种查询方式，效率是最低的，因为一个搜索，可能要请求 3 次分片。但，使用 DFS 方法，搜索精度是最高的。

　　总结一下，从性能考虑 QUERY_AND_FETCH 是最快的， DFS_QUERY_THEN_FETCH 是最慢的。从搜索的准确度来说， DFS 要比非 DFS 的准确度更高。