数据挖掘概念与技术10--数据仓库的系统结构

1.数据仓库设计的四种视图

  自顶向下视图:选择数据仓库所需的相关信息。这些信息能够满足当前和未来商务的需求。

  数据源视图:揭示操作数据库系统收集,存储和管理的信息。这些信息可能以不同的详细程度和精度建模,存放在由个别数据源表到集成数据源表中。通常,用传统的数据建模技术,如实体-联系模型或CASE工具建模。

  数据仓库视图:包括事实表和维表,提供存放数据仓库内部的信息,包括预计算的综合和计数,以及提供历史背景的关于源、原始日期和时间等信息。

  商务查询视图:从最终用户的角度透视数据仓库中的数据。

2.数据仓库的设计过程

  a.方法:

    自顶向下:由总体设计和规划开始,当技术成熟并已经掌握,对必须解决的商务问题清楚并很好理解时使用。费用高时间长灵活度小,因为整个组织所有部门就共同的数据模型达成一致是困难的。

    自底向上:以试验和原型开始,在商务建模和计数开发早期有用。后期将所有的数据集市集成时是困难的。

  b.设计步骤:

    (1)选取待建模的商务处理。即前面所讲的主题:销售,订单,库存等。此时应判断该商务过程是企业的还是部门的,来选择数据仓库或者是数据集市。

    (2)选取商务处理的粒度。即:前面所述的抽象层次。例:一天,一年,国家,城市等。

    (3)选取每个事实表所记录的维。

    (4)选取事实表中每条记录的度量。典型的是可加的数值。

3.三层数据仓库的系统结构

  (1)底层是仓库数据服务器。几乎总是关系型数据库。通过后端工具或使用程序进行数据提取,清理和变换,以及装入和刷新,更新数据仓库。

  (2)中间是OLAP服务器。典型的实现是关系OLAP(ROLAP)和多维OLAP(MOLAP)。以实现对多维数据的操作。

  (3)顶层是前端客户层。它包括查询和报表工具、分析工具、数据挖掘工具。

    

    注:数据的提取是将底层的数据通过 变换后提取到中间层的数据仓库。数据提取通常使用网间连接程序(由基础的DBMS支持,允许客户程序产生SQL代码在服务器上执行。例子包括ODBC,JDBC,OLEDB(微软))。

4.数据仓库模型

  (1)企业仓库。

  (2)数据集市。(分为两类:独立的,依赖的(数据直接来自企业级数据仓库))。

  (3)虚拟仓库。虚拟仓库是操作数据库视图的集合。

5.OLAP服务器类型

  (1)关系OLAP(ROLAP)。使用关系的或扩充关系的DBMS存储并管理数据,较大的可伸缩性。其使用关系表存放联机分析处理数据。

  (2)多维OLAP(MOLAP)。通过基于数组的多维存储引擎支持数据的多维视图。将多维数据直接映射到数据立方体,能够对预计算的汇总数据加速索引。但是数据系数易浪费存储空间。其使用多维数组结构存放联机分析处理数据。

  (3)混合OLAP(HOLAP)。混合上两种。

  (4)特殊的SQL服务器。在只读环境下。对星形和雪花模式进行SQL查询。

原文地址:https://www.cnblogs.com/zjh225901/p/6108898.html