数据仓库系统的组成
数据仓库系统以数据仓库为核心,将各种应用系统集成在一起,为统一的历史数据分析提供坚持的平台,通过数据分析与报表模块的查询和分析工具OLAP(联机分析处理)、决策分析、数据挖掘完成对信息的提取以满足决策的需要。
整个数据仓库系统分为源数据层、数据存储与管理层、OLAP服务器层和前端分析工具层。
OLAP服务指的是对存储在数据仓库中的数据提供分析的一种软件,它能快速提供复杂数据查询和聚集,并帮助用户分析多维数据中的各维情况。
1、抽取工具
用于把数据从各种各样的存储环境中提取出来,进行必要的转换、整理,再存放到数据仓库内。
其功能包括删除对决策应用没有意义的数据,转换到统一的数据名称和定义,计算统计和衍生数据,填补缺失数据,统一不同的数据定义方式。
2、数据集市
数据集市是包含企业范围数据的一个子集,例如只包含销售主题的信息,这样数据集市只对特定的用户是有用的,其范围限于选定的主题。
1)数据集市的类型
(1)从属型数据集市
数据直接来自中央数据仓库的数据集市。
(2)对立性数据集市
其数据直接来自各个业务系统。所以也称为部门级数据仓库。
3、元数据及其管理
元数据是关于数据的数据,是数据仓库中元数据位于数据仓库的上层,是描述数据仓库内数据的结构、位置和建立方法的数据。通过元数据进行数据仓库的管理和通过元数据来使用数据仓库
1)元数据的分类
①管理元数据
管理元数据是存储关于数据仓库技术细节的数据,用于开发和管理数据仓库使用的数据,主要包括以下信息
(1)数据仓库结构的描述,包括仓库模式、视图、维、层次结构和导出数据的定义,以及数据集市的位置和内容。
(2)业务系统、数据仓库和数据集市的体系结构和模式
(3)汇总用的算法,包括度量和维定义算法,数据粒度、主题领域、聚集、汇总、预定义的查询与报告。
(4)由操作环境到数据仓库环境的映射,包括源数据和它们的内容、数据分割、数据提取、清理、转换规则和数据刷新规则、安全(用户授权和存取控制)
②用户元数据
用户元数据从业务角度描述了数据仓库中的数据,它提供了介于使用者和实际系统之间的语义层,使得不懂计算机技术的业务人员也能“读懂”数据仓库中的数据。
(1)应该如何连接数据仓库。
(2)可以访问数据仓库的哪些部分。
(3)所需要的数据来自那一个源系统。
2)元数据的作用
(1)元数据是进行数据集成所必需的。
(2)元数据可以帮助最终用户理解数据仓库中的数据。
(3)元数据是保证数据质量的关键。
(4)元数据可以支持需求变化。
3)元数据的管理
(1)获取并存储元数据
元数据管理必须提供按照合适的版本来获取和存储元数据的方法使元数据可以随时间变化。
(2)元数据集成
元数据集成是元数据管理中的难点。
(3)元数据标准化
每一个工具都有自己专用的元数据,不同的工具中存储的同一种元数据必须用同一种方式表示,不同的工具之间也应该可以自由、容易地交换元数据。
(4)保持元数据的同步
关于数据结构、数据元素、事件、规则的元数据必须在任何时间、在整个数据仓库中保持同步、