【基础组件18】Apache Druid 0.14入门（一）简介、集群部署、使用kafka 构建实时数据摄取

参考链接：

参考课程：

Druid支持对海量数据聚合存储，聚合查询

一、OLTP（数据操作）和OLAP（数据分析）系统的区别

Druid主要用于OLAP 数据分析，提供决策，仅支持查询

MySQL主要用于OLTP 数据操作，支持数据的增删查改，实时修改，支持事务

二、druid的应用场景

三、druid基本特点

四、OLAP系统方案对比

五、druid的架构

metadata 元数据，存在mysql中

deep storage , 存在hdfs中

六、datasource, chunk, segment druid的数据结构

七、druid集群部署

1.官网下载安装包

八、druid 数据摄取配置

overlord节点：发布任务

middlemanager节点：生产数据

historical节点：加载数据

broker节点：接收客户端的查询请求

九、Apache Druid 使用HDFS 构建离线数据摄取

需要从 mapreduce中摄取数据

此外 hdfs也可以作为druid的深度存储

十、Apache Druid 使用Kafka 构建实时数据摄取

1.kafka简介

consumer 消费者

consumer group 消费者组：不同的消费者组，互不影响，A组消费了topic 111的消息后，B组也可以去消费topic 111的消息

同一个消费者组里的消费者，有影响，若消费者数小于或者等于partition数，则一个消费者消费一个或者多个partition

若消费者数大于partition数，则有消费者消费不了消息，没有消息消费

就是同一个消费者组的消费者，会消费不同partition的消息，消费了就没了，不能重复消费

topic 不同类型的消息

partiton 分区，为了提高并行度

某些topic的消息多，就可以多设置几个partition, 提高并行度，

消息少，则可少设置几个partition

cosumer_offset 偏移量消费了就会把偏移量返回给broker

3.使用kafka 构建实时数据摄取