BI开发概念之——数据仓库与联机分析处理,数据挖掘

    从发展计算机技术以来,对信息管理技术的不断提出了新的需求,推动数据库技术飞速发展,另一方面,随着数据处理能力的逐步提高、数据分析工具和技术的不断成熟,人们发现对数据库中的数据进行再加工,形成一个综合的、面向分析的环境,能更好的支持决策分析,发挥数据的更大价值。从而逐渐形成了数据仓库(Data  warehouse, DW)的的思想,由此数据仓库技术营运而生。

   数据仓库就是面向主题的(subject  oriented)、集成的(Integrated)、稳定的(nonvolatile)、随时间变化的(Time  variant)数据的集合,用以支持经营管理中的决策指定的过程

   数据仓库的四个特征和建立数据仓库的目的:

   1、主题与面向主题。主题是一个抽象的概念,是在较高层次上对数据层数据进行综合,归类、分析、利用的抽象。逻辑定义为某一个宏观分析领域所涉及的分析对象。面向主题是指数据的一种组织方式,他是较高层次上对分析对象的数据一个完整的、一致的描述,并统一的刻画着分析对象所涉及的数据项及数据项之间的联系。

   举例:一个商场中有N个信息系统,在传统的应用的组织方式:

   采购子系统:订单(订单号,供应商号,总金额,日期....)

   销售子系统:顾客(顾客号,姓名,地址,电话...)

   库存子系统:领料单(领料单号,领料人,商品号....)

                    进料单(进料单号,订单号,验收人,...)

                    库存(商品号,库存号,库存量...)

                    库房(库房号,管理员...)

   人事子系统:员工(员工号,姓名,性别....)

   这里面就可以抽象出三个主题:商品,供应商、顾客

   面向这三个主题的组织形式:

    商品固有信息:(商品号,商品名,类别,颜色)

    商品采购信息:(商品号,供应商号)

2、数据是集成的。数据仓库中的数据是综合数据,不能从原有的数据库系统直接得到,即数据是从原有分散的数据库中抽取来的,在进入数据库之前,必须经过统一、清楚消息的矛盾与冲突,并经过综合和计算,形成不同程度的汇总数据。这一步是数据仓库建设中最关键,最复杂的一步,即ETL。

3、数据是稳定的。数据仓库中的数据主要是供企业决策分析之用,所涉及的数据操作主要是数据查询,一般情况下并不进行修改操作,数据仓库的数据反映的是一个段相当长的时间内历史数据的内容,是不同时间的数据库快照的集合,以及基于这些快照进行统计,综合和重组的导出数据,而不是联机处理的数据。数据仓库中的数据是稳定的,即指数据是只供查询,一般是不可更新的。因此,DWMS较DBMS的完整性,并发控制技术简单,但由于数据仓库的查询数据往往很大,所以对数据查询提出了更高的要求他要求采用各种复杂的索引技术,同时由于数据仓库面向的是企业的高层管理者,他们会对数据查询的界面友好性和数据表示提出了更高的要求。

4、数据随时间变化。随着时间的延续而增加新的数据内容,随着时间的延续而删除过期(5-10年)的数据内容,而且,数据仓库中包含有大量的综合数据,这些综合数据中很多与时间有关,将随着时间的延续而进行重新综合。所以,数据仓库中数据的码键常常包含时间项,表名数据的时间性。

 (整理中..)

原文地址:https://www.cnblogs.com/zhijianliutang/p/2340670.html