《数据挖掘导论》读书笔记（三）—— 探索数据

书名：数据挖掘导论(Introduction to Data Mining)
作者: Pang-Ning Tan / Michael Steinbach / Vipin Kumar
出版社: 人民邮电出版社
译者: 范明 / 范宏建
出版年: 2010-12-10
ISBN: 9787115241009

第3章探索数据

鸢尾花数据集

数据来源
加州大学欧文分校(UCI)机器学习库鸢尾花数据集
数据介绍
包含150种鸢尾花信息，每50种取自三个鸢尾花品种之一：Setosa、Versicolour、Virginica。
花的特征有以下五种：
1. 萼片长度（厘米）
2. 萼片宽度（厘米）
3. 花瓣长度（厘米）
4. 花瓣宽度（厘米）
5. 类(Setosa、Versicolour、Virginica)

汇总统计

汇总统计(summary statistics)是量化的（如均值和标准差），用单个数或数的小集合表示可能很大的值集的各种特征。

频率和众数

考虑m个对象，这m个对象具有属性x，x的取值集合为{v1,...,vi,...,vk}。
则vi对应的频率： frequency(vi) = 具有属性vi的对象数/m
分类属性的众数(mode)是具有最高频率的值。

百分位数

对于有序数据，考虑值集的百分位数(percentile)更有意义。具体来说，给定一个有序的或连续的属性x和0与100之间的数p，属性x的第p个百分位数xp是一个x值，使得x的p%的观测值小于xp。

位置度量：均值和中位数

对于连续数据，两个使用最广泛的汇总统计是均值(mean)和中位数(median)，它们是值集位置的度量。
考虑m个对象，这m个对象具有属性x，x的取值集合为{v1,...,vi,...,vk}，且vi <= v(i+1)，则
均值：

[mean(x) = ar{x} = frac{1}{m}sum_{i=1}^{m}v_i ag{3-1} ]

中位数：

[median(x) = left{ egin{matrix}v_{r+1},m=2r+1\ frac{1}{2}(v_r + v_{r+1}),m=2rend{matrix} ight. ag{3-2} ]

概括地说，如果奇数个值，则中位数是中间值；如果有偶数个值，则中位数是中间两个值的平均值。
由于均值对离群值敏感，所以有时采用截断均值(trimmed mean)。指定0和100之间的百分位数p，丢弃高端和低端的(p/2)%的数据，然后用常规的方法计算均值。中位数就是p=100时的截断均值。

散布度量：极差和方差

度量数据的集中程度。
最简单的度量是极差(range)。给定属性x，它具有m个值{(x_1),..,(x_m)}，则极差：

[range(x) = max(x) - min(x) ag{3-3} ]

更常用的度量是方差(variance)和标准差(standard deviation)。方差记作(s_x^{2}),标准差是方差的平方根，记作(s_x)。标准差和x具有相同的单位。

[s_x^{2} = frac{1}{m-1}sum_{i=1}^m(x_i - ar{x})^{2} ag{3-4} ]

注意，式(3-4)表示的是样本方差，注意与总体方差进行区别。
由于方差对离群值敏感，所以有时会用到以下三种度量。
绝对平均偏差(absolute average deviation, AAD):

[AAD(x) = frac{1}{m}sum_{i=1}^m|x_i - ar{x}| ag{3-5} ]

中位数绝对偏差(median absolute deviation, MAD):

[MAD(x) = median({|x_1 - ar{x}|,...,|x_m - ar{x}|}) ag{3-6} ]

四分位数极差(interquartile range, IQR):

[IQR(x) = x_{75\%} - x_{25\%} ag{3-7} ]

多元汇总统计

包含多个属性的数据的位置度量，可以通过分别计算每个属性的均值或中位数得到。
对于每个属性的散布情况，更多的使用协方差矩阵(covariance matrix)S表示，其中，S的第ij个元素(s_{ij})是数据的第i个和第j个属性的协方差。这样，如果(x_i)和(x_j)分别是第i个和第j个属性，则：

[s_{ij} = covariance(x_i, x_j) ag{3-8} ]

而其中，

[covariance(x_i, x_j) = frac{1}{m-1}sum_{k=1}^m(x_{ki}-ar{x_i})(x_{kj}-ar{x_j}) ag{3-9} ]

其中，(x_{ki})和(x_{kj})分别是第k个对象的第i和第j个属性的值。
协方差的值接近于0，表明两个变量不具有（线性）关系。
数据的相关性，可以用相关矩阵(correlation matrix)来度量。相关矩阵的第ij个元素是数据的第i和第j个属性之间的相关性。如果(x_i)和(x_j)分别是第i个和第j个属性，则：

[r_{ij} = correlation(x_i, x_j) = frac{covariance(x_i, x_j)}{s_is_j} ag{3-10} ]

其中(s_i)和(s_j)分别是(x_i)和(x_j)的方差。

可视化

动机

让人们能够快速吸取大量可视化信息，并发现其中的模式。
利用“锁在人脑袋中”的领域知识，用非可视化的方式分析，用可视化的方式提供结果，由领域专家进行评估。

一般概念

表示：将数据映射到图形元素
将数据对象、属性，数据对象之间的联系表示成诸如点、线、形状、颜色等图形元素。
安排
正确合理地安排各项元素。
选择
删除或不突出某些对象和属性。

技术

少量属性的可视化

茎叶图(stem and leaf plot)
直方图(histogram)
条形图(bar plot)
相对频率直方图(relative frequency histogram)
Pareto直方图(Pareto histogram)
二维直方图(two-dimensional histogram)
盒状图(box plot)
饼图(pie chart)

可视化时间空间数据

等高线图(contour plot)
曲面图(surface plot)
矢量图(vector plot)
低维切片
动画

可视化高维数据

矩阵
平行坐标系(parallel coordinates)
星形坐标(star coordinates)
Chernoff脸(Chernoff face)

注意事项

ACCENT原则：

理解(Apprehension)
正确察觉变量之间的关系。图形能够最大化对变量之间关系的理解吗？
清晰性(Clarity)
以目视识别图形中所有元素。重要的元素或关系在视觉上最突出吗？
一致性(Consistency)
根据以前的图形的相似性解释图形。元素、符号形状、颜色等与以前的图形使用的一致吗？
有效性(Efficiency)
用尽可能简单的方法描绘复杂关系。图形元素的使用经济吗？图形容易解释吗？
必要性(Necessity)
对图形和图形元素的需要。与其他替代方法（表、文本）相比，图形是提供数据的更有用形式吗？为了表示关系，所有的图形元素都是必要的吗？
真实性(Truthfulness)
通过图形元素的大小，确定图形元素所代表的的真实值。图形元素可以准确地定位和定标吗？