《数据挖掘:概念与技术》学习笔记2

  认识数据

1、数据属性(attribute,可以等同于维dimension、特征feature以及变量variable)

数值属性里面可以求均值(mean平均值)、中位数(median中间值)以及众数(mode最常见的值,一个叫单峰的unimodal,两个双峰bimodal,三个叫三峰trimodal,多个叫多峰的multimodal)。这三个数可以表示中心趋势度量。

涉及一个属性的数据分布叫单变量的univariate,两个的叫bivariate。

(1)标称属性nominal attribute

符号或名称,类别、编码或者状态,可看做分类的categorical或枚举的enumeration

(2)二元属性binary attribute,nominal attribute的一种,取值0或1,布尔属性

(3)序数属性ordinal attribute

值之间具有有意义的序或者秩评定ranking

以上三个都是定性属性。

(4)数值属性numeric attribute

a.区间标度interval-scaled没有真正的0点,例如时间

b.比例标度ratio-scaled有0点,计数的数

(5)离散属性和联系属性

度量数据散布:

极差range是最大值max与最小值min之差

分位数quantile是按固定间隔将数据划分成大小相等的连贯集合。

常用的五数概括five-number summary由最小值Minimum,四分位数Q1,Median,Q3,Maximum组成。

方差variance是与平均值的差的平方的和,标准差standard deviation是variance的平方根。

原文地址:https://www.cnblogs.com/recordstudy/p/6443040.html