数据挖掘

1、数据仓库:是一种数据存储结构。是一种多个异构数据源在单一站点的同意的模式祖师的存储,以支持管理决策。

2、数据仓库技术包括数据清理、数据集成和联机分析处理(OLAP)。

3、数据挖掘:是从大量数据中挖掘有趣模式和知识的过程。数据源包括数据库、数据仓库、Web、其他信息存储库或当台的流入系统数据。

4、数据库的最基本形式是:数据库数据、数据仓库数据、事务数据。

5、存在大量的数据挖掘功能:特征化与区分、频繁模式、关联换个相关性的挖掘、分类与回归、聚类分析、利群点分析

6、数据挖掘功能是指用于指定数挖掘任务发现的模式。这些任务可以分为两类:描述性和预测性。描述性挖掘是指刻画目标数据中数据的一般性质。预测性挖掘是指挖掘任务在当前任务上进行归纳,以便做出预测。

7、类、概念描述:特征化与区分

数据特征化是指数据目标类数据的一般特性或特征的汇总。数据特征化的输出可以用多种形式提供,例如饼图、挑图、曲线或者多位数据立方体和交叉表在内的多维表。

数据区分是指将目标类的数据对象的一般特性与一个或者多个类比对象的一般特性进行比较。

8、挖掘频繁模式、关联和相关性

频繁模式是指数据中频繁出现的模式。

滚立案分析:包含单个谓词的关联规则成为单维关联规则。 

9、回归分析是最常用的一种数值预测统计学方法。

    相关分析可能需要在分析和回归之前进行,它试图识别与分类和回归过程显著相关的属性。

10、离群点扥洗被称为离群点分析或者异常挖掘

11、存在一些模式兴趣度的客观度量。一种客观度量是规则的指出度,他表示事务数据库中满足骨子额的事务所占的百分比。另一种是置信度,他表示规则的确信程度。support(X=>Y)=P(XuY)     confidence(X=>Y)=P(Y|X)其他兴趣度量包含分类规则的准确率和覆盖率。准确率告诉我们被一个会泽正确分类的数据所占的比例,覆盖率表示规则可以使用的数据所占的百分比.专管兴趣度度量基于用户对数据的信念

原文地址:https://www.cnblogs.com/1992825-Amelia/p/5043612.html