论数据湖技术的应用

数据湖是一个存储企业的各种各样原始数据的大型仓库,其中的数据可供存取、处理、分析及传输。

数据湖从企业的多个数据源获取原始数据,并且针对不同的目的,同一份原始数据还可能有多种满足特定内部模型格式的数据副本。因此,数据湖中被处理的数据可能是任意类型的信息,从结构化数据到完全非结构化数据。

数据湖就像一个大容器,与真实的湖泊和河流非常相似。就像在湖中有多个支流进入一样,数据湖具有结构化数据,非结构化数据,机器对机器,实时流经的日志。

企业对数据湖寄予厚望,希望它能帮助用户快速获取有用信息,并能将这些信息用于数据分析和机器学习算法,以获得与企业运行相关的洞察力。

近年来数据管理对象变化,数据量日益增大,在数据格式种类方面,除传统的结构化数据之外,文本数据、图像数据、语音数据、视频数据等半结构化数据或非结构化数据占比越来越大,种类日益丰富。在数据来源方面,数据既包括内部数据,也包括 来自第三方的外部数据,既包括传统业务处理采集的业务数据,也包 括手机终端、传感器、机器设备、网站网络、日志等技术产生的数据。处理架构更新换代,组织职能升级变迁,管理手段自动智能,应用范围不断扩大

1.数据湖技术与数据仓库技术的差异

数据湖能处理所有类型的数据,如结构化数据,非结构化数据,半结构化数据等,数据的类型依赖于数据源系统的原始数据格式;数据仓库只能处理结构化数据进行处理,而且这些数据必须与数据仓库事先定义的模型吻合。数据湖拥有足够强的计算能力用于处理和分析所有类型的数据,分析后的数据会被存储起来供用户使用;数据仓库处理结构化数据,将它们或者转化为多维数据,或者转换为报表,以满足后续的高级报表及数据分析需求。数据湖通常包含数据仓库通常用于存储和维护长期数据,因此数据可以按需访问。

2.数据湖的体系架构

数据资产管理的体系结构主要由数据标准管理、数据模型管理、元数据管理、主数据管理、数据质量管理、数据安全管理、数据价值管 理以及数据共享管理等 8 个方面组成。

数据湖是一种存储架构,本质上讲是存储,企业基于云服务,可以快速挖出一个适合自己的“湖”,完成数据的采集、存储、处理、治理,提供数据集成共享服务、高性能计算能力和大数据分析算法模型,支撑经营管理数据分析应用的全面开展。为规模化数据应用赋能。

通过外部文件系统以及各种数据源进行集中式存储,通过数据湖的管理进行,任务管理、质量管理、数据接入、访问控制、流程编排、数据治理、数据搬迁、资产目录、元数据管理等对数据进行相应的更新,计算引擎通过批处理、流计算、交互书、机器学习等对集中式存储的数据进行萃取、沉淀,将数据提供给第三方应用。

数据接入能力体现在对于各类外部异构数据源的定义管理能力,以及对于外部数据源相关数据的抽取迁移能力,抽取迁移的数据包括外部数据源的元数据与实际存储的数据。

管理能力具体又可分为基本管理能力和扩展管理能力。基本管理能力包括对各类元数据的管理、数据访问控制、数据资产管理,是一个数据湖系统所必须的,后面我们会在各厂商的数据湖解决方案一节相信讨论各个厂商对于基本管理能力的支持方式。扩展管理能力包括任务管理、流程编排以及与数据质量、数据治理相关的能力。任务管理和流程编排主要用来管理、编排、调度、监测在数据湖系统中处理数据的各类任务,通常情况下,数据湖构建者会通过购买/研制定制的数据集成或数据开发子系统/模块来提供此类能力,定制的系统/模块可以通过读取数据湖的相关元数据,来实现与数据湖系统的融合。而数据质量和数据治理则是更为复杂的问题,一般情况下,数据湖系统不会直接提供相关功能,但是会开放各类接口或者元数据,供有能力的企业/组织与已有的数据治理软件集成或者做定制开发。

数据湖中的各类计算引擎会与数据湖中的数据深度融合,而融合的基础就是数据湖的元数据。好的数据湖系统,计算引擎在处理数据时,能从元数据中直接获取数据存储位置、数据格式、数据模式、数据分布等信息,然后直接进行数据处理,而无需进行人工/编程干预。更进一步,好的数据湖系统还可以对数据湖中的数据进行访问控制,控制的力度可以做到库表列行等不同级别。

3.采用数据湖技术进行数据管理

数据模型进行面向数仓的数据集管理,将一批具有相关的主题表放在同一个主题集下,用户只需要创建主题域、主题集,将主题表进行归类,给用户对数 据集的管理带来了极大的便利。

数据湖对一个企业的数字化转型和可持续发展起着至关重要的作用。构建开放、灵活、可扩展的企业级统一数据管理和分析平台, 将企业内、外部数据随需关联,打破了数据的系统界限。

1)利用数据湖智能分析、数据可视化等技术,实现了数据共享、日常报表自动生成、快速和智能分析,满足企业各级数据分析应用需求。

2)深度挖掘数据价值,助力企业数字化转型落地。实现了数据的目录、模型、标准、认责、安全、可视化、共享等管理,实现数据集中存储、处理、分类与管理,实现报表生成自动化、数据分析敏捷化、数据挖掘可视化,实现数据质量评估、落地管理流程。

原文地址:https://www.cnblogs.com/Lhxxx/p/14941191.html