Flume概述

1、Flume是java大数据中用于传输相关的一个框架;大数据是把数据的保存、传输、运算进行操作。只能进行日志的传输,对字节流无法操作

2、结构:SCK结构

Agent是JVM进程,由SCK构成

 Source可以是本地文件(本地文件可以是爬虫源或者java生产源),也可以是端口。和数据源对接

Channel起缓冲作用

Sink是向外对接

3、常见配置:

 Avro Source:轻量级RPC通信框架,用在多个Flume对接嵌套

Exec Source:命令行监控数据源,相当于tail -f 实时获取末尾的更新数据

Spooling,Directory:目录

Taildir Souce:监控多个目录里边动态的数据,监控本地文件

Kafka Source:监听卡夫卡

Netact Source: 监控端口的

======================
HDFS Sink:写到HDFS

Hive Sink:写到Hive

Logger Sink:打印到控制台

 Avro Sink:和Avro Source共同使用,做对接

File Roll Sink:

Custom Sink:用户自定义

==========

4、基本单元:

整个过程是以事件的形式封装传输,Event是Flume的基本单元

Header+Body

 

原文地址:https://www.cnblogs.com/Timeouting-Study/p/14129572.html