数据挖掘概念与技术读书笔记(二)认识数据

2.1 数据对象与属性类型

2.1.1 什么是属性

2.1.2 标称属性：其值是一些符号或事物的名称。每个值代表某种类别、编码或状态，因此标称属性又被看作是分类的。

　　标称属性不是定量的，找出它的均值或中位数没有意义，有意义的是找到众数，是一种中心趋势度量。

2.1.3 二元属性：是一种标称属性，只有两个类别或状态：0或1，也称布尔属性。

　　二元属性可以是对称的：关于哪个结果应该用0或1并无偏好。

　　二元属性可以是非对称的：其状态结果不是同样重要的，如阳性或阴性。为方便计，将用1对重要的结果编码，另一个用0编码。

2.1.4 序数属性：其可能的值之间具有有意义的序或秩评定，但是相继值之间的差是未知的。比如，大、中、小；优、良、中、及格；很不满意、不太满意、中性、满意、很满意。

　　序数属性的中心趋势可以用它的众数和中位数表示，但不能定义均值。

2.1.5 数值属性：可以是区间标度或比率标度

　　1.区间标度属性：用相等的单位尺度度量。区间属性的值有序，可以为正、0或负。可以计算中位数和众数，还可以计算均值。

　　2.比率标度属性：是具有固有零点的数值属性。可以计算差、均值、中位数和众数。

2.1.6 离散属性与连续属性

2.2 数据的基本统计描述

2.2.1 中心趋势度量：均值、中位数和众数

　　均值：对极端值过于敏感

　　加权算术均值或加权平均：

　　截尾均值：丢弃高低极端值后的均值。

　　中位数：有序数据值的中间值。

　　众数：

　　中列数：最大和最小值的平均值

　　正倾斜：众数出现在小于中位数的值上。

　　负倾斜：众数出现在大于中位数的值上。

2.2.2 度量数据散布：极差、四分位数、方差、标准差和四分位数极差

　　1.极差、四分位数和四分位数极差

　　极差：最大值与最小值之差

　　分位数：把数据划分成基本大小相等的连贯集合。

　　四分位数：分成4部分。

　　百分位数：分成100个大小相等的连贯集。

　　第一个四分位数：Q1，第25个百分位数

　　第三个四分位数：Q3，第75个百分位数

　　四分位数极差IQR：Q3-Q1

　　2.五数概括、盒图与离群点

　　识别可疑离群点的通常规则：挑选落在第3个四分位数之上或第1个四分位数之下1.5*IQR处的值。

　　五数概括：中位数，Q1，Q2，最小和最大值。

　　3.方差和标准差

　　低标准差意义数据观测趋向于非常靠近的均值，而高标准差表示数据散布在一个大的值域中。

　　标准差

　　方差

2.2.3 数据的基本统计描述的图形显示

　　1.分位数图

　　2.分位数-分位数图

　　3.直方图：

　　4.散点图：确定两个数值变量之间看上去是否存在联系、模式或趋势的最有效图形方法之一。

2.3 数据可视化

2.4 度量数据的相似性和相异性

2.4.1 数据矩阵与相异性矩阵

2.4.2 标称属性的邻近性度量

　　不匹配率：d(i,j)=(p-m)/p　　p是刻画对象的属性总数，m是匹配的数目

　　相似性：sim(i,j)=1-d(i,j)=m/p

2.4.3 二元属性的邻近性度量

　　r：i中取1，j中取0的属性数

　　s：i中取0，j中取1的属性数

　　q：i,j中都取1的属性数

　　t：i,j中都取0的属性数

　　对称的二元相异性：d(i,j)=(r+s)/(q+r+s+t)

　　非对称的二元相异性：d(i,j)=(r+s)/(q+r+s)

　　非对称的二元相似性：sim(i,j)=q/(q+r+s)=1-d(i,j)，也称为Jaccard系数

2.4.4 数值属性的相异性：闵可夫斯基距离

　　欧几里得距离：

　　加权的欧几里得距离：

　　曼哈顿距离：

　　它们具有如下数学性质：

　　非负性：

　　同一性：对象到自身的距离是0

　　对称性：距离是一个对称函数

　　三角不等式：从对象i到对象j的直接距离不会大于途径任何其他对象k的距离。

　　闵可夫斯基距离：

2.4.5 序数属性的邻近性度量

2.4.6 混合类型属性的相异性

2.4.7 余弦相似性

　　上确界距离（切比雪夫距离）

习题：R语言版

2.2 假设所分析的数据包括属性age，它在数据元组中的值为13,15,16,16,19,20,20,21,22,22,25,25,25,25,30,33,33,35,35,35,35,36,40,45,46,52,70

a)均值？中位数？

b)众数？

c)中列数？

d)Q1,Q3？

e)五数？

f)盒图？

data<-c(13,15,16,16,19,20,20,21,22,22,25,25,25,25,30,33,33,35,35,35,35,36,40,45,46,52,70)
mean(data)
median(data)
which.max(table(x))
(max(data)+min(data))/2
quantile(data,0.25)
quantile(data,0.75)
fivenum(data)
barplot(table(data))

2.3

data<-c(200,450,300,1500,700,44)
median<-sum(data)/2
sum=0
for(i in 1:length(data))
{
   sum=sum+data[i]
   if(sum<median&&sum+data[i+1]>median)
    break
}
#出循环后i+1为中位数区间所在下标，即20~50
20+((sum(data)/2+sum)/data[i+1])*30

2.4

age<-c(23,23,27,27,39,41,47,49,50,52,54,54,56,57,58,58,60,61)
fat<-c(9.5,26.5,7.8,17.8,31.4,25.9,27.4,27.2,31.2,34.6,42.5,28.8,33.4,30.2,34.1,32.9,41.2,35.7)
mean(age)
median(age)
sd(age)
mean(fat)
median(fat)
sd(fat)
barplot(table(age))
barplot(table(fat))
plot(age,fat)
qqplot(age,fat)

2.6

v1<-c(22,1,42,10)
v2<-c(20,0,36,8)
sqrt(sum((v1-v2)^2)) #欧几里德
sum(abs(v1-v2)) #曼哈顿距离
(sum(abs(v1-v2)^3))^(1/3) #闵可夫斯基
max(abs(v1-v2)) #上确界距离

2.8

A1<-c(1.5,2,1.6,1.2,1.5)
A2<-c(1.7,1.9,1.8,1.5,1.0)
data<-data.frame(A1,A2)
x<-c(1.4,1.6)
e<-c()
m<-c()
u<-c()
co<-c()
for(i in 1:nrow(data))
{
   e<-c(e,sqrt(sum((x-data[i,])^2)))
   m<-c(m,sum(abs(x-data[i,])))
   u<-c(u,max(abs(x-data[i,])))
   co<-c(co,sum(x*data[i,])/(sqrt(sum(x^2))*sqrt(sum(data[i,]^2))))
}
rank(e)
rank(m)
rank(u)
rank(co)