数据仓库基础(一)

商业智能那就是帮你把一个数据转化成具有商业价值的,而且可以获取的信息和知识,同时在最恰当的时候,通过某种形式吧信息转递给需要的人。

商业智能的实施步骤:

1.定义需求,

2.数据仓库模型

3.数据抽取、清洗、转换、加载(ETL)

4.建立商业智能分析报表

数据仓库:

数据仓库的开发以完全不同于开发生命周期进行,有时这种周期称为CLDS.与SDLC完全相反。

一个公司要想成功的重建生产系统和休整遗留系统,最重要的步骤是首先建立数据仓库环境。

数据仓库是一个面向主题的(Subject Oriented)、集成的(Integrated)、相对稳定的(Non-Volatile)、反映历史变化的(Time Variant)数据集合,用户支持管理决策。

面向主题的例子:保险公司

       操作型数据库:                  数据仓库

       汽车                           顾客

       人寿                           保险单

       健康                           保险费

       意外伤亡                       索赔

集成在数据仓库中是最重要的:

集成主要有两种形式:

1.数据的集成。

多条信息中的零散信息集成起来。

2.编码的集成

 比如说,在车险部门顾客的性别是用(m、f)表示的,而人寿部门应用系统中是用(男女)表示的,比如还有用(xy)表示。当进入数据仓库前要进行统一的编码。

 比如说单位有的系统用cm ,有的用英寸,有的用m.这是属性度量单位,也需要进行统一。

稳定性:数据仓库数据的操作一般是加载和查询、分析,一般不进行任何修改操作,当超过一定期限之后才会被删除。

随时间变化:数据仓库的数据仅仅是一系列在某时刻生成的复制的快照。这一系列快照使数据库保留了活动和时间的历史记录。 数据仓库在嵌入的事件可以采用多种形式,如为每个记录加时间锉,为整个数据库加时间戳。

数据仓库与数据库生产系统的区别:

数据库生产系统                                       数据仓库决策系统

面向应用,事务处理                                面向主题,分析型处理数据

实时性高                                               实时性要求不高

数据检索量小                                         数据检索量大

只存储当前数据                                      存储大量的历史数据和当前数据

访问频率高                                            访问频率中、低

相应时间在1S一下                                  相应时间几秒或者更长

用户数量很大                                         用户数量相对较小

数据仓库的开发过程主要有几个方面:规划分析阶段、设计实现阶段、使用维护阶段

数据源分析:

数据源是数据仓库系统所有信息的源头,主要是操作型业务应用系统存放的数据集合。

数据源的分析的过程分为范围分析、格式分析、更新方式分析、质量分析4个方面。

   范围分析:是指分析数据的范围。用户需要确定数据仓库系统需要数据源中的哪些原始数据

   格式分析:是指对原始数据在数据库中的物理存储方式进行分析。包括存储类型、存储长度、数据精度等

   更新方式分析:是指对原始数据在应用系统中的更新方式、更是频率、更新内容进行分析判断。

   质量分析:是指分析业务数据的质量,主要是数据的完整性、准确性、一致性。通常这也是数据源分析中最重要和工作量最多的部分。

数据迁移

数据迁移是商业智能的重点

1.数据的抽取:

  数据抽取前需要清除:数据源来自哪几个业务系统,各个业务系统的数据库管理系统分别是什么。

  数据抽取可以有两种方式:直接抽取方式、间接抽取方式。

      直接抽取方式是指数据抽取过程中直接从业务源数据库到目标库,中间没有任何过度。但是直接抽取方式必须确定业务系统数据库为ETL过程提供的数据库用户名、授权给该用户访问的表名称,对该用户授权的方式、数据抽取式相关的安全措施等内容。

      间接抽取方式是指采用文件交换的方式进行数据抽取,需要考虑网络连接、数据库的分布等客观因素。这也叫做异步ETL方式。

2.数据转换:

   数据转转的含义是将业务系统呗的各种源数据,通过自定义的转换脚本或者其他的一下计算方法,将源数据转换成符合数据仓库要求的数据。

3.数据转载:

   数据经过清洗、转换后,需要装载到目标数据库中。

元数据:

元数据主要包括技术元数据和业务元数据

技术元数据时存储关于商业智能系统技术细节的数据,是用于开发和管理商业智能系统使用的数据。它主要包括对数据源、数据转换、抽取过程、数据加载策略以及对目标数据库的定义等内容;

还包括数据仓库使用的模式、视图、维度、层次结构、类别和属性的定义。

业务元数据从业务角度描述了商业智能系统中的数据,是介于使用者和真实系统之间的语义层。

元数据的主要作用:便于商业智能系统的集成和可重用,保证数据仓库的数据质量和可维护性,帮助业务人员和技术人员更好的理解当前业务和系统数据,提高商业智能系统的管理效率。

数据仓库模型设计:

1.概念模型:

2.逻辑模型:

3.物理模型:

数据集市

1.独立型数据集市

2.从属型数据集市

一般不推荐独立型的数据集市,这样可能会导致数据不一致,同时也会增加多个额外的进程。数据集市的数据一般从数据仓库中转换、汇总计算uoqu的,直接支撑应用需求。

数据仓库的实施步骤

1.需求分析

2.数据仓库的逻辑分析:

    数据仓库逻辑上可以分为操作型数据库、数据仓库层、数据集市层、数据分析应用层和报表层。

设计ODS系统

ODS可以有两种形式:ODS数据缓冲区和ODS统一视图区

1.ODS数据缓冲区:它是业务数据流动过程的第一个存储区,实现了数据仓库从各个业务系统的数据源将数据抽取出来,并且转载到ODS数据缓冲区的过程,为之后的数据抽取、清洗、转换过程打下坚实的基础。

2.ODS统一信息试图区:是指有选择地集成各类业务源数据,对数据进行抽取、清洗、转换操作,以数据主题狱为数据集成的基础,对数据进行分类和组织,是用户能够通过统一信息视图去获得跟某个主题域相关的实时性数据。

ODS统一信息试图区的数据一般是从ODS数据缓冲区经过转换,抽取得到的。

ETL是数据流动的过程,是从不同的数据源流向统一的目标数据库。

数据仓库的作用

数据仓库的主要作用有3个方面

1.利用这些最宝贵的业务数据做出最明智的商业决策

2.数据仓库支持多维分析。

3.数据仓库是数据挖掘技术的关键和基础。

数据仓库建设的意义:

1.是企业的高层领导能够从全局角度出发,推动企业数据的统一规划,便于业务人员对企业数据的分析与理解。

2.可以形成企业的概念模型,帮助企业人员更好的理解业务的核心概念和业务之间的关系。

3.帮助设计人员制定出更加合理的数据架构和统一的数据分布图。

4.可以明确各个业务部门的关系和职责

5.形成有效的数据管理体系

6.为业务人员提供各种报表查询功能。

原文地址:https://www.cnblogs.com/evencao/p/3135266.html