数据挖掘(DM)基本概念

问题:数据总量爆炸式增加,如何从中提取真正有价值的信息,产生了新的领域(DM)。几个名词:

    1)Data Mining:数据挖掘

    2)Knowledge Discovery:知识发现

    3)Machine Learning:机器学习(机器学习是数据挖掘的一个重要工具)

    4)Knowledge Discovery in Database:KDD

数据挖掘的主要功能:

    1)概化:归纳、总结和对比数据的特性,将数据特征化或区分,比如对学生的成绩按分数段就行统计。

    2)关联分析:发现数据之间的关联规则,描述某些属性在给定数据中一起频繁出现的条件。

    3)分类和预测:通过已知类别的数据来训练模型或者函数,评估合格之后用来对未知类别的数据做预测。

    4)聚类分析:审视数据的分布特色,自动得将数据划分为不同的组,即将类似的数据归类到一组。

    5)离群点分析:在数据当中,跟主流的数据分布显著不一致的那些点,通常被认为是噪声或者异常。

    6)趋势和演变分析:描述行为随时间变化的对象的发展规律或趋势。

中心趋势度量:度量数据分布的中部或中心位置,或者说,给定一个属性,它的值大部分落在何处?有 $3$ 个指标:

    1)均值:最常用最有效的是的算术均值或加权均值,对极端值很敏感。

    2)中位数:对于非对称数据,数据中心更好的度量是中位数,但在观测数量很大时,计算开销很大。

    3)众数:出现最频繁的值,也叫模。具有一个、两个、三个众数的数据集合分别称为单峰(单模态)、双峰的、三峰的。

       a. 当数据对称时,众数 = 中位数 = 均值。

       b. 当数据分布正倾斜时,均值受偏高数值的影响较大,其位置在众数之右,中位数在众数与算术平均数之间,众数 < 中位数 < 均值。

       c. 当数据分布负倾斜时,均值受偏小数值的影响较大,其位置在众数之左,中位数仍在两者之间,均值 < 中位数 < 众数。

          

数据的散布:度量数据的离散程度。

    1)极差:最大值和最小值之差。

    2)方差和标准差:衡量数据偏离均值的范围,代表模型的稳定性。

    3)四分位数:把数据划分成四个基本上大小相等的连贯集合。$Q_{1}$:有 25% 的数据;$Q_{2}$:有 50% 的数据;$Q_{3}$:有 75% 的数据在此之下。

原文地址:https://www.cnblogs.com/yanghh/p/13790329.html