数据挖掘概念与技术读书笔记(二)认识数据

2.1 数据对象与属性类型

2.1.1 什么是属性

2.1.2 标称属性:其值是一些符号或事物的名称。每个值代表某种类别、编码或状态,因此标称属性又被看作是分类的。

  标称属性不是定量的,找出它的均值或中位数没有意义,有意义的是找到众数,是一种中心趋势度量。

2.1.3 二元属性:是一种标称属性,只有两个类别或状态:0或1,也称布尔属性。

  二元属性可以是对称的:关于哪个结果应该用0或1并无偏好。

  二元属性可以是非对称的:其状态结果不是同样重要的,如阳性或阴性。为方便计,将用1对重要的结果编码,另一个用0编码。

2.1.4 序数属性:其可能的值之间具有有意义的序或秩评定,但是相继值之间的差是未知的。比如,大、中、小;优、良、中、及格;很不满意、不太满意、中性、满意、很满意。

  序数属性的中心趋势可以用它的众数和中位数表示,但不能定义均值。

2.1.5 数值属性:可以是区间标度或比率标度

  1.区间标度属性:用相等的单位尺度度量。区间属性的值有序,可以为正、0或负。可以计算中位数和众数,还可以计算均值。

  2.比率标度属性:是具有固有零点的数值属性。可以计算差、均值、中位数和众数。

2.1.6 离散属性与连续属性

2.2 数据的基本统计描述

2.2.1 中心趋势度量:均值、中位数和众数

  均值:对极端值过于敏感

  加权算术均值或加权平均:

  截尾均值:丢弃高低极端值后的均值。

  中位数:有序数据值的中间值。

  众数:

  中列数:最大和最小值的平均值

  正倾斜:众数出现在小于中位数的值上。

  负倾斜:众数出现在大于中位数的值上。

2.2.2 度量数据散布:极差、四分位数、方差、标准差和四分位数极差

  1.极差、四分位数和四分位数极差

  极差:最大值与最小值之差

  分位数:把数据划分成基本大小相等的连贯集合。

  四分位数:分成4部分。

  百分位数:分成100个大小相等的连贯集。

  第一个四分位数:Q1,第25个百分位数

  第三个四分位数:Q3,第75个百分位数

  四分位数极差IQR:Q3-Q1

  2.五数概括、盒图与离群点

  识别可疑离群点的通常规则:挑选落在第3个四分位数之上或第1个四分位数之下1.5*IQR处的值。

  五数概括:中位数,Q1,Q2,最小和最大值。

  3.方差和标准差

  低标准差意义数据观测趋向于非常靠近的均值,而高标准差表示数据散布在一个大的值域中。

  标准差

  方差

2.2.3 数据的基本统计描述的图形显示

  1.分位数图

  2.分位数-分位数图

  3.直方图:

  4.散点图:确定两个数值变量之间看上去是否存在联系、模式或趋势的最有效图形方法之一。

2.3 数据可视化

2.4 度量数据的相似性和相异性

2.4.1 数据矩阵与相异性矩阵

2.4.2 标称属性的邻近性度量

  不匹配率:d(i,j)=(p-m)/p  p是刻画对象的属性总数,m是匹配的数目

  相似性:sim(i,j)=1-d(i,j)=m/p

2.4.3 二元属性的邻近性度量

  r:i中取1,j中取0的属性数

  s:i中取0,j中取1的属性数

  q:i,j中都取1的属性数

  t:i,j中都取0的属性数

  对称的二元相异性:d(i,j)=(r+s)/(q+r+s+t)

  非对称的二元相异性:d(i,j)=(r+s)/(q+r+s)

  非对称的二元相似性:sim(i,j)=q/(q+r+s)=1-d(i,j),也称为Jaccard系数

2.4.4 数值属性的相异性:闵可夫斯基距离

  欧几里得距离:

  加权的欧几里得距离:

  曼哈顿距离:

  它们具有如下数学性质:

  非负性:

  同一性:对象到自身的距离是0

  对称性:距离是一个对称函数

  三角不等式:从对象i到对象j的直接距离不会大于途径任何其他对象k的距离。

  闵可夫斯基距离:

2.4.5 序数属性的邻近性度量

2.4.6 混合类型属性的相异性

2.4.7 余弦相似性

  上确界距离(切比雪夫距离)

习题:R语言版

2.2 假设所分析的数据包括属性age,它在数据元组中的值为13,15,16,16,19,20,20,21,22,22,25,25,25,25,30,33,33,35,35,35,35,36,40,45,46,52,70

a)均值?中位数?

b)众数?

c)中列数?

d)Q1,Q3?

e)五数?

f)盒图?

data<-c(13,15,16,16,19,20,20,21,22,22,25,25,25,25,30,33,33,35,35,35,35,36,40,45,46,52,70)
mean(data)
median(data)
which.max(table(x))
(max(data)+min(data))/2
quantile(data,0.25)
quantile(data,0.75)
fivenum(data)
barplot(table(data))

2.3 

data<-c(200,450,300,1500,700,44)
median<-sum(data)/2
sum=0
for(i in 1:length(data))
{
   sum=sum+data[i]
   if(sum<median&&sum+data[i+1]>median)
    break
}
#出循环后i+1为中位数区间所在下标,即20~50
20+((sum(data)/2+sum)/data[i+1])*30

2.4

age<-c(23,23,27,27,39,41,47,49,50,52,54,54,56,57,58,58,60,61)
fat<-c(9.5,26.5,7.8,17.8,31.4,25.9,27.4,27.2,31.2,34.6,42.5,28.8,33.4,30.2,34.1,32.9,41.2,35.7)
mean(age)
median(age)
sd(age)
mean(fat)
median(fat)
sd(fat)
barplot(table(age))
barplot(table(fat))
plot(age,fat)
qqplot(age,fat)

2.6

v1<-c(22,1,42,10)
v2<-c(20,0,36,8)
sqrt(sum((v1-v2)^2)) #欧几里德
sum(abs(v1-v2)) #曼哈顿距离
(sum(abs(v1-v2)^3))^(1/3) #闵可夫斯基
max(abs(v1-v2)) #上确界距离

2.8

a)

A1<-c(1.5,2,1.6,1.2,1.5)
A2<-c(1.7,1.9,1.8,1.5,1.0)
data<-data.frame(A1,A2)
x<-c(1.4,1.6)
e<-c()
m<-c()
u<-c()
co<-c()
for(i in 1:nrow(data))
{
   e<-c(e,sqrt(sum((x-data[i,])^2)))
   m<-c(m,sum(abs(x-data[i,])))
   u<-c(u,max(abs(x-data[i,])))
   co<-c(co,sum(x*data[i,])/(sqrt(sum(x^2))*sqrt(sum(data[i,]^2))))
}
rank(e)
rank(m)
rank(u)
rank(co)
原文地址:https://www.cnblogs.com/MarsMercury/p/5155577.html