数据探索

三个方面来看数据探索:汇总统计、可视化和联机分析处理

1、汇总统计是用数概括数据的性质(位置度量、散布度量)

频率:一个属性值的频率是数据集里属性值发生次数的百分比

众数:一个属性的众数是具有最高频率的值

百分位数:对于连续的数据,考虑值集的百分位数更有意义

位置度量:均值和中位数

散布度量:极差和方差

极差:最大值和最小值的差,

方差:

2、可视化

以图形或表格形式显示信息

 可视化技术:直方图、二维直方图、箱图、散点图0、等高线图、矩阵图、平行坐标、星形图、Chernoff

箱图:

等高线图:

常用于在空间网格上一个连续属性被度量的情况
–他们把平面划分成相似值的区域
–形成这些区域边界的等高线把相等的值连接起来
–最常见的例子是显示地面位置海拔高度的等高线
–也可以用来展示温度、降雨量、空气压力等等.
例 海洋表面温度

3、联机处理OLAP(数据仓库)

OLAP运算:

切片是通过对一个或多个维指定的值,从整个多维数组中选择一组单元。
切块涉及通过指定属性值区间选择单元子集。这等价于由整个数组定义子数组。

上卷和下钻:层次结构中使用到上卷和下钻,对于销售数据,可以按月聚集(上钻)每天的销售,也可以将月份数据分解(下钻)到日销售数据。

层次结构,日期的层次结构,年月日,地点的层次结构,洲国城市等

原文地址:https://www.cnblogs.com/RR-99/p/10387295.html