Data Mining | 数据挖掘技术基础与进阶

 

1 数据挖掘技术基础

1.1 描述性统计分析

在现实工作中,不是所有的问题都需要用建模来解决,一些简单的问题如果能用简单方法,就不要使用复杂的解决方案。这样既提升了效率,也减少了出错的可能。即使是非常复杂的问题,我们往往也需要首先用简单的方法,对问题进行一个概括和总览 —— 描述性统计

描述性统计,是指用图(直方图、散点图…)或表来对数据总体中有关变量进行统计,包括频数分析、集中趋势分析、离散程度分析、数据分布、统计图形。

  • 频数:利用频数分析和交叉频数分析可以检验异常值
  • 集中趋势:反映数据的一般水平,常用指标有均值、中位数、众数
  • 离散程度:反映数据之间的差异程度,常用指标有方差、标准差、四分位数、最大值、最小值
  • 分布:用偏度、峰度两个指标来检查样本数据是否符合正态分布tt
  • 统计图形:用直方图、散点图…能更清晰展现数据规律

 
在实际应用中(如数据EDA分析),常把变量分为连续型和离散型,描述性统计分析常用的统计量有:

  • 离散型:统计频数、百分比、累计频数、累计百分比
  • 连续型:根据实际需要考虑是否需要对变量离散化,再进行统计
    • 离散化:和离散型变量一样,统计频数、百分比、累计频数、累计百分比
    • 不离散化:统计非缺失数、缺失数、第1百分位数、第10百分位数、第25百分位数、第50百分位数、第75百分位数、第90百分位数、最小值、最大值、均值、标准差

 

2 数据挖掘技术进阶

2.1 数据挖掘算法

数据挖掘中用到的算法,可以从算法理论层面、算法学习方式、算法学习任务三个角度进行分类。

2.1.1 分类一:算法理论层面

 
数理统计算法,建模一般流程遵循①假设检验 → ②建模参数选择 → ③构建模型 → ④假设检验评估模型 → ⑤参数调优 这5个步骤。而机器学习算法建模,一般流程是一个循环往复、不断迭代、不断优化的过程,详见下图:

在实际应用场景中,虽然数理统计算法是基于统计学,但它们也常常用机器学习的建模思路进行应用。总之,特征是对客观世界的抽象,算法则是对事物运行规律内嵌逻辑的还原,算法作用于特征从而无限逼近客观事物运行规律的过程,则是机器学习或者数据挖掘的过程。

 

2.1.2 分类二:算法学习方式

 

2.1.3 分类三:算法学习任务

各种算法的学习任务,本质就是数据挖掘的任务,上述学习任务可分为两大类:

  • 描述型数据挖掘:是对现有数据特征的呈现,没有标签(无监督)。如关联规则、序列模式、聚类
  • 预测型数据挖掘:是是对未来趋势的预测,数据有标签(有监督)。如分类、回归

 

2.2 数据挖掘技术的绩效增益

思考一个问题:数据挖掘是如何提升业务的?一般来说,提高业务绩效有三种方法——创意优惠名单。名单指的是营销活动的具体对象,如根据名单向客户进行营销活动,提高客户的购买概率,进而提高营销活动的绩效。创意和优惠这两种方法,主要是通过人力,物力,财力等实现,而名单这种方法则是通过数据挖掘技术实现的,可见数据挖掘技术的绩效增益,主要是通过向使用者提供“名单”得以实现的。

原文地址:https://www.cnblogs.com/1k-yang/p/13070985.html