数据仓库-(1)数仓主题分享记录

本文记录木东居士数仓主题分享内容

分享地址:https://www.bilibili.com/video/av96469217

导读

技能干货:主题域划分规则;数据集市与主题域如何衔接;数据治理之数据标准化;数据中台;实时数仓;传统数仓与互联网数仓异同

职业发展:数仓困境-善战者无赫赫战功;除了技术我一无所有

彩蛋:SQLboy的自我救赎

1. 主题域划分规则

主题域:将业务过程或者维度进行抽象的集合;特点:面向分析、业务抽象的、通用的、长期维护(业务域 or 数据域?业务主题eg:国内电商、境外电商;数据主题eg:订单行为、推广行为等,这两个构成的业务数据矩阵类似维度建模中的企业总线矩阵

2. 数据集市与主题域如何衔接

类似阿里的结构ODS ->DWD -> DWS ->TDM标签层 ->ADS应用层(参数据中台

数据集市相当于在DWS汇总层上汇总多业务的宽表

  

 3. 数据治理之数据标准化

1)通用埋点标准化:场景SDK、H5、小程序等;格式用户信息、设备信息、时间信息、数据稽核信息等

2)日志上报标准化:上报链路、数据延迟、数据准确性

3)数据处理标准化:离线+实时;规范-模型、表、脚本、计算、存储

4)对外服务标准化:元数据、指标字典、在线服务、即席查询

怎么评价数仓模型的好坏?存储大小、耗费资源、加工路径深度

 4. 数据中台

 数据中台是一种战略选择和组织形式。组织+数据+服务+方法论;数据仓库是中台的一部分

5. 实时数仓

与离线那一套框架其实是一样的

spark、flink的最终落地都是SQL

 6.传统数仓与互联网数仓异同

 

 tips1-职业发展

平台化趋势:可以全面发展数仓+数分+数挖

不要把自己局限在SQL,多去接触新工具

站在产品的角度去做数仓,了解产品+运营

tips2-费曼学习法

确定学习目标 ->模拟教学 ->回顾 ->简化

tips3-SQLBoy的自我救赎

每个人都能有自己的IP,在打造IP的过程中,懂得如何做运营,如何打磨内容,如何交流表达,如何做社群维护,如何提升个人形象

原文地址:https://www.cnblogs.com/foolangirl/p/14227177.html