Data Mining | 数据挖掘技术基础与进阶

1 数据挖掘技术基础
- 1.1 描述性统计分析
2 数据挖掘技术进阶
- 2.1 数据挖掘算法
- 2.2 数据挖掘技术的绩效增益

1 数据挖掘技术基础

1.1 描述性统计分析

在现实工作中，不是所有的问题都需要用建模来解决，一些简单的问题如果能用简单方法，就不要使用复杂的解决方案。这样既提升了效率，也减少了出错的可能。即使是非常复杂的问题，我们往往也需要首先用简单的方法，对问题进行一个概括和总览 —— 描述性统计。

描述性统计，是指用图（直方图、散点图…）或表来对数据总体中有关变量进行统计，包括频数分析、集中趋势分析、离散程度分析、数据分布、统计图形。

频数：利用频数分析和交叉频数分析可以检验异常值
集中趋势：反映数据的一般水平，常用指标有均值、中位数、众数
离散程度：反映数据之间的差异程度，常用指标有方差、标准差、四分位数、最大值、最小值
分布：用偏度、峰度两个指标来检查样本数据是否符合正态分布tt
统计图形：用直方图、散点图…能更清晰展现数据规律

在实际应用中（如数据EDA分析），常把变量分为连续型和离散型，描述性统计分析常用的统计量有：

离散型：统计频数、百分比、累计频数、累计百分比
连续型：根据实际需要考虑是否需要对变量离散化，再进行统计
- 离散化：和离散型变量一样，统计频数、百分比、累计频数、累计百分比
- 不离散化：统计非缺失数、缺失数、第1百分位数、第10百分位数、第25百分位数、第50百分位数、第75百分位数、第90百分位数、最小值、最大值、均值、标准差

2 数据挖掘技术进阶

2.1 数据挖掘算法

数据挖掘中用到的算法，可以从算法理论层面、算法学习方式、算法学习任务三个角度进行分类。

2.1.1 分类一：算法理论层面

数理统计算法，建模一般流程遵循①假设检验 → ②建模参数选择 → ③构建模型 → ④假设检验评估模型 → ⑤参数调优这5个步骤。而机器学习算法建模，一般流程是一个循环往复、不断迭代、不断优化的过程，详见下图：

在实际应用场景中，虽然数理统计算法是基于统计学，但它们也常常用机器学习的建模思路进行应用。总之，特征是对客观世界的抽象，算法则是对事物运行规律内嵌逻辑的还原，算法作用于特征从而无限逼近客观事物运行规律的过程，则是机器学习或者数据挖掘的过程。

2.1.2 分类二：算法学习方式

2.1.3 分类三：算法学习任务

各种算法的学习任务，本质就是数据挖掘的任务，上述学习任务可分为两大类：

描述型数据挖掘：是对现有数据特征的呈现，没有标签（无监督）。如关联规则、序列模式、聚类
预测型数据挖掘：是是对未来趋势的预测，数据有标签（有监督）。如分类、回归

2.2 数据挖掘技术的绩效增益

思考一个问题：数据挖掘是如何提升业务的？一般来说，提高业务绩效有三种方法——创意、优惠、名单。名单指的是营销活动的具体对象，如根据名单向客户进行营销活动，提高客户的购买概率，进而提高营销活动的绩效。创意和优惠这两种方法，主要是通过人力，物力，财力等实现，而名单这种方法则是通过数据挖掘技术实现的，可见数据挖掘技术的绩效增益，主要是通过向使用者提供“名单”得以实现的。