YNGAT-JZ数据治理架构

1.数据治理系统架构

说明:
1.Flume采用的三个client实时监控三个服务器的磁盘路径,七个server提高负载均衡和拉取数据的能力,采用load_balance机制将数据Sink到kafka,其中source zip方式flume官方不支持,需要开发自定义source
2.对于历史数据的备份从源头开始备份,当flume解析完一个zip的数据写入到kafka后,该zip文件会更名为.zip.complete文件,默认保存三天,过期自动删除,减少磁盘空间占用
3.质量分析kafka和数据分发kafka将分区设置最大,同时对于每个topic的数据量和下游的消费能力评估,设置动态的合适的数据存放时间,提高效率,避免数据积压。
4.质量分析库之所以采用Druid,是因为Druid在时序汇总关联查询具有有事,性能较快。

原文地址:https://www.cnblogs.com/jiashengmei/p/12978956.html