数据挖掘——统计学分析(一:数据的整理与图示表示)

数据预处理

1、数据审核:检查数据中是否有错误

 原始数据->完整性:所调查的对象是否有遗漏。

                

                准确性:数据是否有错误、存在异常值

                         ->异常值 :记录错误,予以纠正;正确地值,予以保留。

 二手数据->适用性:明确数据的来源、口径、背景材料,以便确定数据是否符合分析研究的需要。

                

                时效性:对于时效性较强的问题,如果数据是滞后的对于研究就没有多大的意义。

 

2、数据筛选

 工具:excel、spss,网上资料很多,这里不再赘述。

3、数据排序

1)按一定顺序排序,以便发现明显的特征或趋势;

2)利于数据的纠错、重新归类、分组。


 品质数据的整理与展示

预处理后的数据,需进一步做分类、分组。

品质数据:分类数据、顺序数据

1、分类数据的整理与图示

分类数据:对事物的一种分类

整理:列出所分的类别,计算出每一类别的频数、频率或比例、比率,制作频数分布表。

目的:对数据及其特征进行初步地了解

工具:excel、spss前期的数据分析,这些工具已经很智能了!

 图示:条形图、帕累托图、饼图、环形图

2、顺序数据的整理与图示

顺序数据:【转至百度百科】

https://baike.baidu.com/item/%E9%A1%BA%E5%BA%8F%E6%95%B0%E6%8D%AE/9210375?fr=aladdin

整理:列出所分的类别,计算出每一类别的频数、频率或比例、比率,制作频数分布表;还可计算累计频率(或频数)

目的:对数据及其特征进行初步地了解

工具:excel、spss前期的数据分析,这些工具已经很智能了!

 图示:条形图、帕累托图、饼图、环形图、累计频数分布图或频率图。

数值数据的整理与展示

数值型的数据除了可以用品质数据的整理和图示方法外,还有一些特殊的方法。

1、数据的分组:观察数据的分布特征

单变量值分组:适用于离散变量,其变量值较少。

组距分组:适用于连续性型变量,其变量值较多。

 ex:分组方法及其制表过程

step1:确定组数。组数的确定主要是用于数据特征的观测,因此具体需视其数据特征而定。

step2:确定各组的组距。组距=组的上限-组的下限。组距的确定:(全部数据的上限-全部数据的下限)/组数

step3:根据分组整理成频数分布表。

2、数值型数据的图示

分组数据:直方图

未分组数据:茎叶图、箱线图

茎叶图:反映原始数据分布形状、离散状况(是否对称、集中、存在离群点)

工具:excel、spss都很方便

箱线图:由一组数据的的最大值、最小值、中位数、两个四分位数

 时间序列数据——线图:反映随时间变化的特征

多变量数据的图示:散点图、气泡图、雷达图

散点图:2个变量之间的关系的刻画

气泡图:3个变量之间的关系的刻画

雷达图:多个变量之间的关系的刻画

工具:excel、spss都很方便


原文地址:https://www.cnblogs.com/Erma/p/9736479.html