数据仓库基础(一)201363

        数据仓库之父(William Inmon)所提出的定义是最被广泛接受:

          数据仓库是一个面向主题的(Subject Oriented)、集成的(Integrated)、相对稳定的(Non-Volatile)、反映历史变化的(Time Variant)数据集合,用户支持管理决策。

          面向主题的(Subject Oriented):操作型数据库的数据组织面向事务处理任务,各个业务系统之间各自分离,而数据仓库中的数据是按照一定的主题域进行组织的。

          集成的(Integrated):据仓库中的数据是在对原有分散的数据库数据抽取、清理的基础上经过系统加工、汇总和整理得到的,必须消除源数据中的不一致性,

                                       以保证数据仓库内的信息是关于整个企业的一致的全局信息。

          相对稳定的(Non-Volatile): 说通俗点数据仓库的数据修改和删除操作很少,通常只需要定期的加载、刷新。

          反映历史变化的(Time Variant):数据仓库中的数据通常包含历史信息,系统记录了企业从过去某一时点(如开始应用数据仓库的时点)到目前的各个阶段的信息,通过这些信息,

                                                     可以对企业的发展历程和未来趋势做出定量分析和预测。

        数据仓库与数据库的区别:1.数据库是面向事务(应用)的设计,数据仓库是面向主题设计的。数据库一般存储在线交易数据,数据仓库存储的一般是历史数据。

                                          2.数据库是为捕获数据而设计,数据仓库是为分析数据而设计,它的两个基本的元素是维表和事实表。

                                          3.数据仓库的客户是决策人员高级管理人员;数据库的客户是操作人员底层管理人员。

                                          4.数据仓库的诗句是历史的、聚集的、多维的、集成的、统一的;而数据库的数据时当前的,最新细节的,二维分立的。

        数据仓库的开发以完全不同于开发生命周期进行,有时这种周期称为CLDS.与SDLC完全相反。

面向主题的例子:保险公司
       操作型数据库:                  数据仓库
       汽车                           顾客
       人寿                           保险单
       健康                           保险费
       意外伤亡                       索赔 

      集成在数据仓库中是最重要的。

      比如说,在车险部门顾客的性别是用(m、f)表示的,而人寿部门应用系统中是用(男女)表示的,比如还有用(xy)表示。当进入数据仓库前要进行统一的编码。比如说单位有的系统用cm ,

      有的用英寸,有的用m. 这是属性度量单位,也需要进行统一。

      随时间变化:数据仓库的数据仅仅是一系列在某时刻生成的复制的快照。这一系列快照使数据库保留了活动和时间的历史记录。 数据仓库在嵌入的事件可以采用多种形式,

      如为每个记录加时间锉,为整个数据库加时间戳。

      建立数据仓库不是一撮而就。相反,数据仓库还能一步一步进行设计并载入数据,即它是进化型的,而不是革命性的。

原文地址:https://www.cnblogs.com/evencao/p/3116156.html