读书笔记1-数据中台(数澜科技)

——从技术、架构、设计、运营、管理5个维度系统总结数据中台实现方法论

PART1前言(WHY)

IT到DT

信息化演进之路,“让数据用起来”

数据中台3个核心认知

1.需要提升到基础设施的高度,进行规模化投入 ;

2.需要全新的数据价值观与方法论,形成平台级能力;

3.需要业务、数据、分析综合性人才,尽快启动人才储备。

数据中台3个发展阶段

1.探索阶段:技术与现有业务结合,迅速形成可见、可展示的成果;缺点是缺乏整体规划,每个项目都要从头到尾走一遍,底层数据支持效率会大幅下降。

2.整合数据应用提升效率:1)数据汇聚/交换能力;2)数据资产化能力;3)数据服务化能力

3.重构数据空间和业务空间

PART2数据中台是什么(WHAT)

什么是数据中台

数据中台是一套可持续“让企业的数据用起来”的机制,是一种战略选择和组织形式,是依据企业特有的业务模式和组织架构,通过有形的产品和实施方法论支撑,够贱的一套持续不断把数据变成资产并服务于业务的机制

数据中台必备4个核心能力

1.汇聚整合;2.提纯加工;3.服务可视化;4.价值变现

数据中台业务价值-赋能业务、核心壁垒

1.以客户为中心,用洞察驱动企业稳健行动;2.以数据为基础,支持大规模商业创新;3.盘活全量数据,构建核心壁垒以持续领先

数据中台技术价值-能力多、成本低、应用广

1.应对多数据处理需求;2.丰富标签数据,降低管理成本;3.支持跨主题域访问;4.数据可快速复用

PART3数据中台建设方法(HOW)

数据中台建设方法论

1种战略行动:企业级战略规划

2种保障条件:1.需要有组织保障;2.需要提升全企业数据意识:1)数据采集意识、2)数据标准化意识、3)数据使用意识、4)数据安全意识

3项目标准则:1.数据可见;2.数据可用;3.数据可运营

4套建设内容:1.技术体系;2.数据体系;3.服务体系 ;4.运营体系

5个关键步骤:1.理现状:组织、业务、数据、技术现状;2.立架构:组织、业务、技术、应用、数据架构;3.建资产:数据集成、资产萃取、数据标准、数据质量;4.用数据:数据安全、场景服务;5.做运营:监控审计、价值评估、质量评估、资产排名

数据中台架构

1.数据汇聚;2.数据开发;3.数据体系;4.数资管理;5.数据服务体系 ;6.运营体系和安全管理

PART4企业数据能力评估(WHO)

企业数据应用成熟度评估

1.统计分析阶段

2.决策支撑阶段

3.数据驱动阶段

4.运营优化阶段

什么企业适合建设数据中台

1.有一定的信息化基础,沉淀了数据,实现了业务数据化过程;

2.企业业务有丰富的数据维度及场景,特别是多业态型集团企业;

3.企业有数字化转型、精细化经营的需求。

PART5数据中台架构讲解(Detail)

数据汇聚联通-打破数据孤岛

数据采集汇聚

1.线上行为采集:1)客户端埋点:全埋点、可视化埋点、代码埋点;2)服务端埋点

2.线下行为采集

3.互联网数据采集:网络爬虫,Nutch、Scrapy

4.内部数据汇聚:Canal、Sqoop、DataX

数据交换产品

1.数据源管理:1)关系型MySQL、oracle;2)Nosql:Hbase、Redis、elasticsearch、Cassandra、MongoDB、Neo4J;3)网络和MQ:kafka、HTTP;4)文件系统:HDFS、FTP、OSS、CSV、TXT、Excel;5)大数据相关:hive、impala、kudu

2.离线数据交换:1)读取插件;2)写入插件;3)数据交换核心模块

3.实时数据交换:1)数据订阅服务CLIENT SERVER:数据订阅和读取、任务实例启停控制;2)数据消费服务:任务状态控制、数据解析、过滤、转换、写入等

数据存储

1.在线与离线

2.OLTP与OLAP

3.存储技术:1)分布式系统;2)Nosql数据库;3)云数据库

数据开发-价值提炼

产品能力

1.离线开发:核心功能点作业调度、基线控制、异构存储、权限管控等,离线套件封装包括数据加工、分析 ,在线查询,即席分析等能力;整合任务调度、发布、运维、监控、告警等。

2.实时开发:核心功能点元数据管理、SQL驱动开发、组件化配置

3.算法开发:可视化建模及notebook建模,常用语金融风控与反欺诈、文本挖掘分析、广告精准营销、个性化推荐

数据计算能力4种类型

1.批计算:MapReduce、spark

2.流计算:storm、flink、spark streaming,应用场景如流式ETL、流式报表、监控预警、在线系统

3.在线查询:elasticsearch、Redis,应用场景如画像服务、搜索、圈人场景

4.即席分析:impala、kylin、clickhouse,应用场景如交互式数据分析、群体对比分析

数据体系建设-夯实基础

贴源数据层ODS

仅做多源数据的汇聚、整合;

在ODS不做字段命名统一,可与业务系统字段名保持一致;

若采用增量同步方式,需要同时建立增量表和全量表

统一数仓层DW

细分为明细数据层DWD和汇总数据层DWS,从业务视角组织数据,常用维度建模方法

1.划分数据域:1)数据调研;2)业务分类;3)数据域定义:划分业务范围;4)总线矩阵构建:数据域下的业务过程与维度信息梳理

2.指标设计:保持一致性,原子指标+时间修饰词+其他维度修饰词=派生指标

3.维度表设计:1)选择维度;2)确定主维表;3)梳理关联维表;4)定义维度属性

4.事实表设计:1)过程:确定业务过程;定义粒度;确定维度;确定事实;冗余维度属性

                        2)类别:事务事实表-记录业务事务级别数据(增量更新);周期快照事实表-记录时间周期内的聚集事实或状态度量(增量更新);累计快照事实表-覆盖一个事务从开始到结束之间所有关键事件(全量刷新)。

标签数据层TDM

面向对象建模,跨业务、域整合打通

1.确定对象:人、物、关系(事实关系与归属关系)

2.对象ID打通

3.标签类目设计

4.标签设计

5.标签融合表设计:横表or纵表?

应用数据层ADS

从统一数仓层、标签层抽数、面向业务特殊需要加工业务特定数据

1.需求调研

2.盘点现有数据能否满足;个性化数据加工

3.组装应用层数据

数据资产管理-承上启下

什么是数据资产

企业拥有或控制、能带来未来经济利益的数据资源

数资管理现状

缺乏统一的数据视图;数据基础薄弱;数据应用不足;数据价值难估;缺乏安全的数据环境;数据管理浮于表面

数资管理4个目标

1.可见:数据资产地图

2.可懂:元数据管理,数据资产标签化

3.可用:统一数据标准,提升数据质量和数据安全性

4.可运营:组织管理制度与价值评估体系

数资管理11大职能

1.数据标准管理:对数据的表达、格式及定义的一致约定。业务术语标准、参考数据和主数据标准、数据 元标准、指标数据标准。

2.数据模型管理:概念数据模型、逻辑数据模型、物理数据模型。

3.元数据管理 :元数据是描述数据的数据。技术元数据、业务元数据、管理元数据。元数据常应用于:1)元数据浏览检索;2)血缘分析与影响分析;3)冷热度分析。

4.主数据管理:用来描述企业核心业务实体的数据,如供应商、客户等。

5.数据质量管理:从业务、管理、技术入手。准确性;完整性;一致性;有效性;唯一性;及时性;稳定性;连续性;合理性。

6.数据安全管理:通过评估安全风险,设置数据安全等级、完善数据安全管理制度及技术规范,保证数据被合法合规、安全采集、传输、存储和使用。

7.数据价值管理:度量数据内在价值,成本与应用价值。

8.数据共享管理:包括内部共享、外部流通与对外开放。

9.生命周期管理:1)不可恢复数据-建议保存;2)可恢复数据-灵活调整。

10.标签管理:1)数据分类标签如来源、更新频率、归属部门等;2)根据某些行为组织的内容标签如还贷能力等。

11.数据资产门户:1)数据资产地图;2)数据资产目录;3)数据资产检索

数资管理级别评估

初始级—>受管理级—>稳健级—>量化管理级—>优化级

数资管理的7个成功要素

1.强有力的组织架构;2.清晰的数据战略;3.重视数据的企业文化;4.合理的制度与流程;5.标准与规范;6.成熟的软件平台;7.科学的项目实施

数据服务体系建设-“API-最后一公里”

 3大数据服务核心能力

1.基础数据服务:面向对象是物理表数据,主要场景包括数据查询、多维分析

2.标签画像服务:面向对象是标签数据,主要场景包括标签圈人、画像分析

3.算法模型服务:面向对象是算法模型,主要场景包括智能营销、个性化推荐、金融风控

4种常见的数据服务

1.查询:1)支持配置查询标识;2)支持配置过滤项;3)支持查询结果配置

2.分析:1)支持多源数据接入;2)高性能即席查询;3)多维数据分析;4)灵活对接业务系统

3.推荐:1)支持不同行业推荐;2)支持不同场景推荐;3)支持推荐效果优化

4.圈人:1)支持人群圈选;2)支持人群计量;3)支持多渠道对接

3种对接服务的数据应用

1.数据大屏:1)需求调研;2)数据开发;3)数据服务封装;4)可视化展现

2.数据报表:1)传统报表-记录;2)统计报表-统计;3)分析报表-分析(BI类报表)

3.智能应用:1)个性化推荐应用;2)精准营销应用

数据中台运营机制与安全管理-安全质量是基础、提效降本是关键

 数据中台运营的4个价值切入点

1.统一战略;2.搭建组织;3.打造氛围;4.实践创新

数据资产运营的4个目标

1.可阅读-读取门户或数据地图;

2.易理解-标签化;

3.好使用-API服务体系;

4.有价值-价值评估

数据资产运营链路

1.看-资产门户

2.选-意向资产库

3.用-服务接口

4.治-标签治理及数据治理

5.评-资产评估

数据资产运营执行

1.资产信息组织登记;2.数资宣传推广;3.搭建服务保障平台;4.持续治理优化;5.价值评估

数据资产安全管理

1.分级分类管理;2.脱密和加密;3.监控和审计

数据成本运营

1.存储成本;2.计算成本

大数据平台安全管理

1.统一安全认证和权限管理;2.资源隔离;3.数据加密;4.数据脱敏;5.容灾备份;6.其他(匿名发布、数字水印、数据溯源、角色挖掘等)

原文地址:https://www.cnblogs.com/foolangirl/p/13701716.html