笔记(2):认识数据

数据的属性

数据对象

  • 样本
  • 实例
  • 数据点
  • 对象
    数据对象用属性描述。数据表的行对应数据对象;列对应属性

属性

  • 标称属性
    类别,状态或事物的名字,每个值代表某个类别、编码或状态,这些值不必具有有意义的序,可以看做是枚举的。
    可以用数值表示这些符号或名称,但并不定量地使用这些数。
  • 二元属性
    布尔属性,是一种标称属性,只有两个状态:0或1
    对称:二元属性的两种状态具有同等价值,且具有相同的权重,例如:性别
    非对称:二元属性其状态的结果不是同样重要,例如阳性和阴性,重要的结果用1编码
  • 序数属性
    其可能的值之间具有有意义的序或者秩评定,但是相继值之间的差是未知的
    例如:军衔、职称、主观质量评估
  • 数值属性(区间标度属性、比率标度属性)
    区间标度:使用相等的单位尺度度量。值有序,可以评估值之间的差,不能评估倍数。没有绝对的零点。
    如:温度、日期
    比率标度:具有固定零点的数值属性。值有序,可以评估值之间的差,也可以说一个值是另一个的倍数。

数据的基本统计描述

中心趋势度量

  • 均值
    一般指算术平均数,是表示一组数据集中趋势的度量,是指在一组数据中所有数据之和再除以这组数据的个数,它是反映数据集中趋势的一项指标。
    (x_1, x_2, dots, x_N)是某数值属性(x)(N)个观测值,该值集合的均值为:
    (ar{x} = frac{sum_{i = 1}^N x_i}{N} = frac{x_1 + x_2 + dots + x_N}{N})
    截尾均值:是指在一个数列中,去掉两段的极端值后所计算的算术平均数,也称为切尾均值。截尾均值一般用于比赛评分。
    加权算术平均数:对于集合中的每个值(x_i)都有一个权重(w_i)。权重反映它们所依附的对应值的意义、重要性或出现的频率
    (ar{x} = frac{sum_{i = 1}^N w_ix_i}{sum_{i = 1}^N w_i} = frac{w_1x_1 + w_2x_2 + dots + w_Nx_N}{w_1 + w_2 + dots + w_N})
  • 中位数
    有序数据值的中间值
    如果值有奇数个,取中间值;否则取中间两个数的平均值。
    当观测的数量很大时,中位数的计算开销很大。我们可以计算中位数的近似值,这就引入了分组数据中位数。根据(N / 2)确定中位数所在的组。假定数据根据它们的(x_i)值划分成区间,并且已知每个区间的频率(即数据值的个数)。例如,可以根据年薪将人划分成到诸如10000-20000美元、20000-30000美元等区间。令包含中位数频率的区间为中位数区间。我们可以使用如下公式,用插值计算整个数据集的中位数的近似值:
    (median = L_1 + (frac{N/2 + (sum freq)_i}{freq_{median}})width)
    其中,(L_1)是中位数区间的下界,(N)是整个数据集中值的个数,((sum freq)_i)是低于中位数区间的所有区间的频率和,(freq_{median})是中位数区间的频率,而(width)是中位数区间的宽度。
  • 众数
    是一组数据中出现次数最频繁的值
    如果出现多个众数,那么有如下经验公式:(mean - mode = 3 imes (mean - median))
  • 中列数
    数据集中最大值和最小值的算术平均值

数据分散度量

  • 极差
    是集合最大值与最小值之间的差距,即最大值减最小值后所得数据
  • 分位数
    取自数据分布的每隔一定间隔上的点,把数据划分成基本上大小相等的连贯集合
    给定数据分布的第k个q-分位数的值为x,使得小于x的数据值最多为k/q,而大于x的数据值最多为(q-k)/q,其中k是整数,使得0<k<q。这里有q-1个q分位数。
    四分位数:Q1为下分位数,Q2为中位数,Q3为上四分位数

    四分位数极差:IQR = Q3 - Q1
    确定四分位数的位置:
    Q1的位置 = ((n + 1) / 4 = (n + 1) imes 0.25)(1 + (n - 1) imes 0.25)
    Q2的位置 = (2 * (n + 1) / 4 = (n + 1) imes 0.5)(1 + (n - 1) imes 0.5)
    Q3的位置 = (3 * (n + 1) / 4 = (n + 1) imes 0.75)(1 + (n - 1) imes 0.75)
    n表示项数
    这里为什么是n+1呢,想想中位数怎么求就知道了
  • 方差
    是衡量随机变量或一组数据离散程度的度量,即随机变量对于平均值的偏离程度。每个样本值与全体样本值的平均数之差的平方值的平均数。方差用来计算每一个变量(观察值)与总体均数之间的差异。
    总体方差:(sigma^2 = frac{1}{N}sum_{i = 1}^N(x_i - ar{x})^2 = (frac{1}{N}sum_{i = 1}^n x_i^2)^2 - ar{x}^2)
    样本方差:(s^2 = frac{1}{n - 1}sum_{i = 1}^n(x_i - ar{x})^2 = frac{1}{n - 1}[sum_{i = 1}^nx_i^2-frac{1}{n}(sum_{i = 1}^{n}x_i)^2])
  • 标准差
    (sigma) 是方差(sigma^2)的平方根,低标准差意味着数据观测趋向于非常靠近均值,高标准差则表示数据散布在一个大的值域中。

数据的图形显示

  • 箱图(箱线图)
    是一种用来描述数据分布的统计图形,可以表现观测数据的中位数、四分位数和极差等描述性统计量

    识别可疑的离群点的通常规则是,挑选落在第3个四分位数之上或第1个四分位数之下至少1.5IQR处的值
  • 饼图
    通常用来表示整体的构成部分及各部分之间的比例关系。饼图显示一个数据系列中各项的大小与各项总和的比例关系
  • 频率直方图
    又称频率分布直方图,是在统计学中表示频率分布的图形
  • 散点图
    将样本数据点绘制在二维平面或三维空间上,根据数据点的分布特征,直观地研究变量之间的统计关系以及强弱程度
原文地址:https://www.cnblogs.com/miraclepbc/p/14315954.html