数仓项目

背景:客户行为数据越积越多,公司有着挖掘客户大数据分析的需求

方案: 通过大数据仓库离线分析+presto引擎工具实现

用到的组件:hadoop2.7.4   、  hive-1.2.1(不要用2.X版本,坑很多)  、  sqoop-1.4.6 、  presto-server 、metabase(presto连接时候没有鉴权认证,所以提供一个UI管理界面)

运作流程:

1、sqoop将关系型数据库mysql的数据以分桶文件格式导入hive    sqoop---->hdfs---->hive

2、调优hive的mapreduce参数

3、配置:presto链接hive    安装:presto客户端  使用:通过presto客户端查询所需数据    界面化:提供presto的UI界面metabase,设定好查询SQL,打好标签,供客户使用

原文地址:https://www.cnblogs.com/byfboke/p/14415049.html