大数据架构之:Flume

1、 Flume是一个分布式、可靠、和高可用的海量日志聚合的系统，支持在系统中定制各类数据发送方，用于收集数据；同时，Flume提供对数据进行简单处理，并写到各种数据接受方（可定制）的能力。

2、一个独立的Flume进程称之为Agent,包含组件Source、Channel、Sink Source

Flume基础架构：Flume 可以单节点直接采集数据。

Flume 的内部实现

Event：Event是Flume数据传输的基本单元。Flume以Event的形式将数据从源头传送到最终目的。

Source：Source负责接收events或通过特殊机制产生events，并将events批量的放到一个或多个Channels。Flume支持文件、消息流等数据源，并在Source部件中将接收到的数据转换为一个Event。例如Flume支持监听文件目录（spooling directory source），当监听的目录下新到一个文件，Flume就会将其作为数据源通过Source转换为Event实时的传输走。

Channel：Channel位于Source和Sink之间，用于缓存进来的events，当Sink成功地将events发送到下一跳的channel或最终目的，events从Channel移除。目前Flume支持3种channel memory channel：消息放在内存中，提供高吞吐，但不提供可靠性；可能丢失数据； file channel：对数据持久化；但是配置较为麻烦，需要配置数据目录和checkpoint目录；不同的file channel均需要配置一个checkpoint 目录； jdbc channel：内置的derby数据库，对event进行了持久化，提供高可靠性；未来取代同样具有持久特性的file channel

Sink：Sink负责将events传输到下一跳或最终目的。Sink支持将数据写入到离线存储如HDFS、消息系统如Kafka等。

Interceptor：用于Source的一组拦截器，按照预设的顺序在必要地方对events进行过滤和自定义的处理逻辑实现。

Channel Selector允许Source基于预设的规则，从所有Channel中，选择一个或多个Channel。例如根据话单中的漫游字段，可以将原始话单放到不同的Channel，这样Sink就可以将数据送到不同的目标系统中。

Channel Selector支持两种选择器：复制Replicating: 一个event被复制到多个channel；复用Multiplexing: event被路由到特定的channel，即非复制模式。