笔记（2）：认识数据

数据的属性

数据对象

样本
实例
数据点
对象
数据对象用属性描述。数据表的行对应数据对象；列对应属性

属性

标称属性
类别，状态或事物的名字，每个值代表某个类别、编码或状态，这些值不必具有有意义的序，可以看做是枚举的。
可以用数值表示这些符号或名称，但并不定量地使用这些数。
二元属性
布尔属性，是一种标称属性，只有两个状态：0或1
对称：二元属性的两种状态具有同等价值，且具有相同的权重，例如：性别
非对称：二元属性其状态的结果不是同样重要，例如阳性和阴性，重要的结果用1编码
序数属性
其可能的值之间具有有意义的序或者秩评定，但是相继值之间的差是未知的
例如：军衔、职称、主观质量评估
数值属性（区间标度属性、比率标度属性）
区间标度：使用相等的单位尺度度量。值有序，可以评估值之间的差，不能评估倍数。没有绝对的零点。
如：温度、日期
比率标度：具有固定零点的数值属性。值有序，可以评估值之间的差，也可以说一个值是另一个的倍数。

数据的基本统计描述

中心趋势度量

均值
一般指算术平均数，是表示一组数据集中趋势的度量，是指在一组数据中所有数据之和再除以这组数据的个数，它是反映数据集中趋势的一项指标。
令(x_1, x_2, dots, x_N)是某数值属性(x)的(N)个观测值，该值集合的均值为：
(ar{x} = frac{sum_{i = 1}^N x_i}{N} = frac{x_1 + x_2 + dots + x_N}{N})
截尾均值：是指在一个数列中，去掉两段的极端值后所计算的算术平均数，也称为切尾均值。截尾均值一般用于比赛评分。
加权算术平均数：对于集合中的每个值(x_i)都有一个权重(w_i)。权重反映它们所依附的对应值的意义、重要性或出现的频率
(ar{x} = frac{sum_{i = 1}^N w_ix_i}{sum_{i = 1}^N w_i} = frac{w_1x_1 + w_2x_2 + dots + w_Nx_N}{w_1 + w_2 + dots + w_N})
中位数
有序数据值的中间值
如果值有奇数个，取中间值；否则取中间两个数的平均值。
当观测的数量很大时，中位数的计算开销很大。我们可以计算中位数的近似值，这就引入了分组数据中位数。根据(N / 2)确定中位数所在的组。假定数据根据它们的(x_i)值划分成区间，并且已知每个区间的频率（即数据值的个数）。例如，可以根据年薪将人划分成到诸如10000-20000美元、20000-30000美元等区间。令包含中位数频率的区间为中位数区间。我们可以使用如下公式，用插值计算整个数据集的中位数的近似值：
(median = L_1 + (frac{N/2 + (sum freq)_i}{freq_{median}})width)
其中，(L_1)是中位数区间的下界，(N)是整个数据集中值的个数，((sum freq)_i)是低于中位数区间的所有区间的频率和，(freq_{median})是中位数区间的频率，而(width)是中位数区间的宽度。
众数
是一组数据中出现次数最频繁的值
如果出现多个众数，那么有如下经验公式：(mean - mode = 3 imes (mean - median))
中列数
数据集中最大值和最小值的算术平均值

数据分散度量

极差
是集合最大值与最小值之间的差距，即最大值减最小值后所得数据
分位数
取自数据分布的每隔一定间隔上的点，把数据划分成基本上大小相等的连贯集合
给定数据分布的第k个q-分位数的值为x，使得小于x的数据值最多为k/q，而大于x的数据值最多为(q-k)/q，其中k是整数，使得0<k<q。这里有q-1个q分位数。
四分位数：Q1为下分位数，Q2为中位数，Q3为上四分位数

四分位数极差：IQR = Q3 - Q1
确定四分位数的位置：
Q1的位置 = ((n + 1) / 4 = (n + 1) imes 0.25)或(1 + (n - 1) imes 0.25)
Q2的位置 = (2 * (n + 1) / 4 = (n + 1) imes 0.5)或(1 + (n - 1) imes 0.5)
Q3的位置 = (3 * (n + 1) / 4 = (n + 1) imes 0.75)或(1 + (n - 1) imes 0.75)
n表示项数
这里为什么是n+1呢，想想中位数怎么求就知道了
方差
是衡量随机变量或一组数据离散程度的度量，即随机变量对于平均值的偏离程度。每个样本值与全体样本值的平均数之差的平方值的平均数。方差用来计算每一个变量（观察值）与总体均数之间的差异。
总体方差：(sigma^2 = frac{1}{N}sum_{i = 1}^N(x_i - ar{x})^2 = (frac{1}{N}sum_{i = 1}^n x_i^2)^2 - ar{x}^2)
样本方差：(s^2 = frac{1}{n - 1}sum_{i = 1}^n(x_i - ar{x})^2 = frac{1}{n - 1}[sum_{i = 1}^nx_i^2-frac{1}{n}(sum_{i = 1}^{n}x_i)^2])
标准差
(sigma) 是方差(sigma^2)的平方根，低标准差意味着数据观测趋向于非常靠近均值，高标准差则表示数据散布在一个大的值域中。

数据的图形显示

箱图（箱线图）
是一种用来描述数据分布的统计图形，可以表现观测数据的中位数、四分位数和极差等描述性统计量

识别可疑的离群点的通常规则是，挑选落在第3个四分位数之上或第1个四分位数之下至少1.5IQR处的值
饼图
通常用来表示整体的构成部分及各部分之间的比例关系。饼图显示一个数据系列中各项的大小与各项总和的比例关系
频率直方图
又称频率分布直方图，是在统计学中表示频率分布的图形
散点图
将样本数据点绘制在二维平面或三维空间上，根据数据点的分布特征，直观地研究变量之间的统计关系以及强弱程度