数据治理

1.为什么要数据治理

Ebay--Why do we do data governance

  • To ensure security and privacy of the data and access control.
  • 确保数据和访问控制的安全性和私密性。

  • To capture the metadata of datasets for security and end-user data consumption purposes.

  • 出于安全性和最终用户数据消耗的目的,捕获数据集的元数据。

  • To help to ensure the quality of the data.

  • 帮助确保数据质量。

  • To identify the owner of the data set.

  • 标识数据集的所有者。

此外,当前大数据平台正在面对各种挑战:

  1. 面对海量且持续增加的各式各样的数据对象,很难明确其来源,去处,使用频率和生命周期。
  2. 用户不知道大数据平台中有哪些数据,也不知道这些数据和业务的关系是什么,该到去哪里寻找数据来满足业务需求。
  3. 数据质量是从传统数据平台开始就一直存在的问题,没有质量控制导致海量数据因质量过低而难以被利用,没有能有效管理整个大数据平台的管理流程。
  4. 数据的使用管理,什么人可以拿到数据,可以拿到多少数据。
  5. 如何对数据使用过程进行审计,发现违规的数据使用行为。
  6. 大数据时代,企业拥有着海量数据,但企业数据缺乏相互关联,数据的深层价值难以体现。

从上述挑战中可以总结出数据治理需要做的事,后续篇章会详细介绍。

2.数据治理的对象

数据不会无缘无故的产生,也不会自己表述其具有的含义,更不会自己管理自己,所以我们才会有数据治理。如果用数据库的表设计来说明的话,我们大概分为三个部分,分别如下:

  1. 概念设计,主要用来描述业务对象或者业务关系
  2. 逻辑模型,通常指ER图来描述概念设计的模型
  3. 物理模型,用来存储ER图实际的物理结构,包括存储结构和存储方法。

按照元数据的功能来划分:[1]是业务元数据;[2]和[3]属于技术元数据;还有一个是操作元数据,主要就是描述数据是怎么产生,如DB的日志,数据使用的时候安全,审计,血缘等信息。

数据治理实际就是在管理业务元数据技术元数据操作元数据这三方面的内容。广义的来看,除了业务逻辑直接读写处理的那些业务数据,所有其它用来维持整个系统运转所需的信息/数据都可以叫作元数据。比如数据表格的Schema信息,任务的血缘关系,用户和脚本/任务的权限映射关系信息等等

常见的元数据信息

  1. 数据的表结构Schema信息
  2. 数据的空间存储,读写记录,权限归属和其它各类统计信息
  3. 数据的血缘关系信息,不同数据任务之间的依赖关系
  4. 数据的业务属性信息,数据的业务属性信息,通常与底层系统自身的运行逻辑无关,需要从外部获取
    比如一张数据表的统计口径信息,这张表干什么用的,各个字段的具体统计方式,业务描述,业务标签,脚本逻辑的历史变迁记录,变迁原因等等,采集和展示也就需要尽可能的和业务环境相融合

3.数据治理需要做的事

元数据管理

包括元数据采集、血缘分析、影响分析等功能

数据标准管理

包括标准定义、标准查询、标准发布等功能

数据质量管理

包括质量规则定义、质量检查、质量报告等功能

数据集成管理

包括数据处理、数据加工、数据汇集等功能

数据资产管理

包括数据资产编目、数据资产服务、数据资产审批等功能

数据安全管理

包括数据权限管理、数据脱敏、数据加密等功能

数据生命周期管理

包括数据归档、数据销毁等功能

主数据管理

包括主数据申请、主数据发布、主数据分发等功能

原文地址:https://www.cnblogs.com/CodingJacob/p/13266890.html