数据挖掘学习--数据仓库

一.数据仓库概念

数据仓库是一个面向主题的,集成的,随时间而变化的,不容易丢失的数据集合,支持管理部分的决策过程。

为统计的历史数据分析提供坚实的平台,对信息处理提供支持。

二.数据仓库的关键特征

1.面向主题,

2.数据集成

一个数据仓库是通过多个异种数据源来构造的

关系数据库,一般文件,联机事物处理

使用数据清理和数据集成技术

命名约定,编码结构,属性变量等的一致

当数据被移到数据仓库时,它们要经过转换。

3.随时间变化

数据仓库的时间范围比操作系统库系统要长的多

操作数据库系统:主要保存当前数据

数据仓库:从历史的角度提供信息(比如过去5-10年)

数据仓库中的每一个关键结构都隐式或显示的包含时间元素,而操作数据库中的关键结构可能不包含时间元素。

4.数据不易丢失

尽管数据仓库中的数据来自操作数据库,但他们却是在物理上是分离保存的。

操作数据库的更新操作不会出现在数据仓库环境下

不需要处理事务处理,恢复和并发控制等机制

只需要两种数据访问 数据的初始装载和数据访问

三.传统的异种数据库集成

在多个异种数据库上建立包装程序(wrappers)和中介程序(mediators)

查询驱动方法-当客户端传过来一个查询时,首先使用元数据字典将查询转换成相应的异种数据的查询,然后,将这些查询映射和发送到局部查询处理器

缺点 复杂的信息过滤和集成处理处理,后台竞争资源

数据仓库:更新驱动

1将来自多个异种源的信息预先集成,并存储在数据仓库中,供直接查询和分析

2 高性能

四.OLTP和OLAP主要区别

操作数据库主要任务是OLTP 联机事物处理

数据仓库主要任务是OLAP 联机分析处理

用户和系统的面向性:顾客     市场

数据内容  当前的.详细的数据,历史的,汇总的数据

数据库设计 实体-联系模型(ER)和面向应用的数据库设计   星型/雪花模型和面向主题的数据库设计。

视图 当前的.企业内部的数据 VS经过演化的。集成的数据

访问模式 事物操作  只读查询(但很多都是复杂的查询)

原文地址:https://www.cnblogs.com/wujin/p/3219430.html