Impala简介

一：什么是Impala？

Impala是用于处理存储在Hadoop集群中的大量数据的SQL查询引擎。它是一个用C ++和Java编写的开源软件。换句话说，Impala是性能最高的SQL引擎，它提供了访问存储在Hadoop分布式文件系统中的数据的最快方法。

二：Impala的特点是什么？

1. Impala支持内存中数据处理，即，它访问/分析存储在Hadoop数据节点上的数据，而无需数据移动。

2.与其他SQL引擎相比，Impala为HDFS中的数据提供了更快的访问。

3.使用Impala，可以访问不同的数据存储，如HDFS，Apache HBase

4.Impala支持各种文件格式，如LZO，序列文件，Avro，RCFile和Parquet。

5.Impala使用Apache Hive的元数据，ODBC驱动程序和SQL语法。

6.C++编写，LLVM（构架编译器）统一编译运行用于优化以任意程序语言编写的程序的编译时间、链接时间、运行时间以及空闲时间，对开发者保持开放，并兼容已有脚本

三：Impala的核心组件：

1、Impala Statestore

负责收集分布在集群中各个impalad进程的资源信息、各节点健康状况，同步节点信息，而且还负责query的调度分配

2、Impala Catalog

分发表的元数据信息到各个impalad中

接收来自statestore的所有请求

3、Impala Daemon

接收client、hue、jdbc或者odbc请求、Query执行并返回给中心协调节点

子节点上的守护进程，负责向statestore保持通信，汇报工作

四：Impala的组成部分？

Impala由以下的组件组成：

1、Clients – Hue、ODBC clients、JDBC clients、和Impala Shell都可以与Impala进行交互，这些接口都可以用在Impala的数据查询以及对Impala的管理。

2、Hive Metastore（元数据）存储Impala可访问数据的元数据。例如，这些元数据可以让Impala知道哪些数据库以及数据库的结构是可以访问的，当你创建、删除、修改数据库对象或者加载数据到数据表里面，相关的元数据变化会自动通过广播的形式通知所有的Impala节点，这个通知过程由catalog service完成。