数据挖掘笔记(1)-概念、数据准备

一.概念:

    数据挖掘:运用基于计算机的方法,从数据中获得有用之时的整个过程。

    两个基本目标:预测和描述。

    数据挖掘的基本任务:(1)分类  (2)回归  (3)聚类 (4)总结概括 (5)关联建模 (6)变化和偏差检测

    数据挖掘的过程: 陈述问题,阐明假设->收集数据->预处理数据->模型评估(挖掘数据)->解释模型,得出结论

    数据仓库的开发过程概括为3个阶段:建模、构建和部署

    完成数据挖掘所耗费的精力:数据准备>商业目标>数据挖掘>巩固结果

二:数据准备

   2.1 原始数据的表示

              数据样本是数据挖掘的基本组成部分。每个样本都用几个特征来描述,每个特征都用不同类型的值。两种常见的类型数值型和分类型。

        数值型值包括实型变量和整型变量,如年龄、速度或长度。数值型特征有两个重要的属性:其值有顺序关系和距离关系。

        分类型(长叫做符号型)变量没有上述两种关系,分类型变量的两个值可以相等或不等。它们只建立一种等同关系,例如:眼睛颜色、性别、国籍。

        具有n个值的分类型变量可以转换成n个二进制数值型变量,即一个二进制数值对应分类型变量的一个值。

              另一种基于变量值的变量分类方法是,根据它是连续性变量还是离散型变量来分类。连续型变量也称为定量型或度量型变量。在大型数据集     

        中,连续型变量用实型或整型值来表示。离散型变量也叫定性型变量。一种特殊的离散型变量是周期变量。

              最后,另一种数据分类维度是基于数据与时间有关的行为特征。大多数数据挖掘方法更适合静态数据,挖掘动态数据时,常常需要特殊的考虑  

        和预处理。

              产生大多数数据挖掘问题的原因是,大量的样本具有不同类型的特征。此外,这些样本往往是高维度的,这就意味着它们有极多的可测量特征

        。在高维度空间中密度和两点间距离的传统含义改变了,因此需要重新考虑、评估传统概念。

   2.2 原始数据的特征

              杂乱的数据来源和含义;根据已有的数据甚至丢失的数据来建模。失真数据、方法上错误的步骤选择、滥用数据挖掘工具、模型过于理想化、

        未考虑数据中各种不确定性和模糊性的模型-----所有的这些都可能导致数据挖掘方向性错误。

              数据挖掘中一个最关键的步骤是初始数据集的准备和转换。

              数据准备阶段有两个中心任务:

              (1)把数据组织成一种标准形式,以便于数据挖掘工具和其他基于计算机的工具处理(标准形式是一个关系表)。

              (2)准备数据集,使其能得到最佳的数据挖掘效果。

   2.3 原始数据转换

              标准化、数据平整、差值和比率

   2.4 对丢失数据的处理

              对带有和不带有丢失值的特征生成多种数据挖掘解决方案,然后对他们进行分析和解释。

   2.5 时间相关数据

   2.6 异常点分析

              异常点定义:在大型数据集中通常有一些不符合数据模型的一般规则,这些样本和数据集中的其他数据有很大的不同或不一致,叫做异常点。

              异常点的检测方案的主要类型有:

              图形或可视化技术、基于统计的技术、基于距离的技术、基于模型的技术  (这几种方法的具体介绍略)

     

原文地址:https://www.cnblogs.com/zhizhan/p/3500403.html