dbms复习(二)

什么是ods?什么是操作型数据存储?ods的定义是什么?ods的特点?

ods是用于支持企业日常的全局应用的数据集合,保存在ods中的数据有一下4个特点:面向主题、集成的、可更新的,数据是当前或接近当前的。

ods 的功能是什么?实现机制是什么?

  1.在ods上可以实现企业级的oltp

  2.在ods上可以实现即时的olAp

什么是分析型或者全局或者企业级OLTP?

所谓"企业级OLTP",是指在实际数据处理中,一个事务同时涉及多个部门的数据。

为什么要引入ODS?(可以用ods的功能回答)

是因为存在着类似于像企业级的OLTP或者即时OLAP这样的操作,把这样的操作放在数据库里或者数据仓库里面去做都不合适,所以就引入了一个新的层,叫OPDS。

什么是即时OLAP?

希望能够快速返回或者快速响应的联机分析处理。

OLTP和OLAP的差别

什么是操作型处理模式?什么是信息型处理模式?

操作型处理模式,只有查询操作的工作模式。

信息型处理模式,含有更新操作的工作模式,

ODS中存在一个动态切换开关,在需要进行操作型处理模式时,提供操作型处理模式的环境;在需要信息型处理模式时,可以切换到信息型操作模式做需要的环境。

什么是分层ODS?

有多个分层ODS分层,有总公司的分层ODS,有分公司的ODS

放在(操作数据存储)ODS和数据仓库(DW)中的数据有什么差别?

操作数据存储(ODS) 数据仓库(DW)
当前的或者接近当前的数据 历史数据
细节数据

细节数据和综合数据

可联机更新

不可变快照

在将数据源的数据加载到数据仓库前需要完成哪些工作?

需要完成ect的工作, 抽取、清洗、转换

在三级体系结构中ODS和数据仓库中存在着哪两级记录系统?

数据仓库中的数据有哪些?

数据仓库中的数据:业务数据和元数据

粒度的概念?

粒度分为两种形式:第一种粒度是对数据仓库中数据的综合程度高低的一个度量。另一种粒度是样本数据库。

什么数据分割、分片?

数据分割是指,将数据分布到各自的物理单元中,以便能分别独立处理,提高数据分析效率。数据分割后的数据单元称为分片(分割之后的)。

捕捉变化数据的四种途径 :时标方法、delta文件、前后快照文件的方法、日志文件。

元数据的定义?什么是数据仓库中的元数据?

元数据是描述数据的数据。

数据仓库中的元数据是对数据仓库的中的数据进行描述的数据。

元数据的内容?

元数据的分类有哪些?

按照用户分:技术元数据、业务元数据

按照来源分:正式元数据、非正式元数据

OLAP的四个特点?

快速性、可分析性、多维性、及时性

olap和oltp有什么异同?

oltp数据 olap数据
原始数据 导出数据
细节性数据 综合性或提炼性数据
当前数据 历史数据
可更新 不可更新,但周期性追加和刷新
一次处理的数据量小 一次处理的数据量大
面向应用,事物驱动 面向分析,分析驱动
面向操作人员,支持日常操作 面向决策人员,支持管理需要

多维数据模型有哪些核心概念?

维,维成员,维层,维层次,维属性,度量,数据方体,数据单元

什么是维、维成员、维层、维层次、维属性、度量、数据方体、数据单元?

维:人们观察数据的特定角度。维由维成员构成。

维成员:维的一个取值称为维的一个成员。

维层:人们观察数据时,除了从特殊的角度去观察外,还需要从不同的细节程度去观察。这些不同的细节程度就称为不同的维层。例如:时间维、日、月、季度时不同的细节。

维层次:维层中可以有很多分类方法,每种分类方法叫做一个层次。

维属性:维成员具有的特征。

度量:度量是要分析的目标和对象。

数据方体:多维数据模型构成的多维数据空间称作数据方体。一个数据方体由多个维和度量组成。。

什么是多维数据模型?

多维数据模型主要研究多维数据的抽象表示问题。

什么叫星形模型?什么是雪片模型?举例说明什么是星形模型?

星形模型是多维数据模型的基本结构,通常由一个很大的中心表和一组较小的表组成。例如:50页,图4.6

雪片模型:雪片模型也称雪花模型,是对维表规范化后形成的。

事实群模型:由多个事实表和多个维表构成;一个维表可以背多个事实表构成。

常用的数据模型是什么?他们之间有什么差异?

星形模型、雪片模型、事实群模型。

差异:星形模型不支持维的层结构,所以引入的雪片模型,(雪片模型更好地体现了维的层结构,)需要支持多个事实表,所以引入了事实群模型。

多维分析基础:聚集

聚集函数可以分为三类:分布型、代数型、整体型

分布型聚集函数:具有可以累计的特性。例如sum(求和)函数;

代数型聚集函数:如果一个函数可以由若干个分布型函数进行代数运算得出,则说明该函数是代数型聚集函数。例如求平均;

整体性聚集函数:不能用其他函数进行代数运算得出;例如中间数函数。

常用的多维分析操作有哪些?

常用的多维分析操作有:切片、切块、旋转、下钻、上卷

切片:在数据方体的某一维上选定一个维成员的动作;

切块:在数据方体的某一维上选定某一区间的维成员的动作;

旋转:改变数据方体维的次序的动作;

下钻:在某个分析的过程中,用户可能需要从更多的维或者某个维的更细层次上来观察数据,这时可以通过下钻来进行更深入的分析。

上卷:与下钻相反的操作类型。下钻是为了看到更细的数据,上卷是为了看到更粗的数据。

请举例说明常用的多位分析操作有哪些?(要举个例子)

多维查询语言用什么?

多维查询语言用MDX。

MDX和SQL的区别是什么?

MOLAP多维数据存储的优点

表达清晰,占用存储空间少 ;查找速度快,维护代价小;有利于多维计算

缺点:最大的缺点是数据稀疏问题

ROLAP优缺点

可以有效地处理海量数据;涉及大量昂贵的连接运算、查询速度慢,必须采用预结算索引等技术加以克服。

什么是数据方体的预计算?为什么要进行数据方体的预计算?什么是数据压缩?为什么要进行数据方体的压缩?什么是数据方体的维护?为什么要进行数据方体的维护?(要自己总结)

75页例子看看懂

什么是数据方体格结构?什么是数据方体格?

是一个有向图,图中的每个节点表示一个cubiod,图中的每条边表示节点之间的导出关系。

什么是导出关系?

如果cuboidA是由cuboidB通过减少维的个数得到的,则称cuboidA可以cuboidB导出

什么是数据方体的缩减技术?为什么要进行数据方体的缩减?

因为随着维数的增加和事实表的增大,数据方体中的数据单元的个数将呈”爆炸式“增加,要存储下所有的这些数据单元几乎是不可能的,所以要进行数据方体缩减。

怎么进行缩减 采用一种特殊的数据压缩手段,将整个数据方体存储下来,从而为高效率的查询处理提供了支持。其主要思想是按照

数据方体的索引技术

数据仓库中的索引有哪些?

在数据仓库环境下,通常采用两种类型的索引:树索引和位图索引

R树索引和B树索引的主要区别是什么?

R树是多维的,B数是单维的

举例说明简单位图索引的创建过程;举例说明简单位图索引的使用过程;

简单的bitmap索引 P99 6.5看明白了答上

P100 当有用户要查询,类似于xxxx怎么去处理

什么是projection索引(2021年3月底题库考试)?

projection索引的思想非常简单,它将某个表的某一列以相同的元组顺序冗余存储。这样做的好处是,查询时如果不需要的话可以不读取其他列的值。

什么是数据方体的维护?为什么要进行数据方体的维护?

当数据源中的数据发生变化以后,需要将这些变化反应到数据方体中。如果数据方体中的部分视图进行了实体化,则需要对这些实体化视图进行维护。如果数据方体存储时采用了某种缩减结构,则需要将变化反应到这些缩减结构中,因为你有更新了,有更新就必须要有维护。

计算题:会算 支持读、置信度、频繁相集、关联规则  apriori算法

原文地址:https://www.cnblogs.com/xiaoxiaorichang/p/14575681.html