数据挖掘概述

数据挖掘是知识发现（KDD）的一个步骤，它可以从数据库、数据仓库以及文本数据、多媒体数据中挖掘出有用的模式或知识。

一数据挖掘的功能

数据挖掘的功能主要包含特征化与区分，频繁模式、关联和相关性挖掘，分类与回归，聚类分析和离群点分析。一般而言这种任务分为描述性和预测性两种，描述性挖掘任务刻画目标数据中数据的一般性质，预测性挖掘任务在当前数据上进行归纳，以便做出预测。

（1）特征化与区分

数据特征化是目标类数据的一般特性或特征的汇总。例如假设AllElec是一家大型的公司，AllElec的客户关系经理提出数据挖掘任务：“汇总一年之内在AllElec花费500美元以上的顾客特征。”其结果可能是顾客的概况，如年龄范围、有工作、有很好的等级等。特征化的输出可以是多种形式，如饼图、条图、曲线、多维数据立方体或广义关系、规则等描述性方式。

数据区分是将目标类数据对象的一般特性与一个或多个对比类对象的一般特性进行比较。如将上一年销售增加10%的软件产品与同一年销售至少下降30%的软件产品进行比较。区分的输出形式类似特征化，但要有比较度量。

（2）挖掘频繁模式、关联和相关性

频繁模式是在数据中频繁出现的模式，主要包含三种：频繁项集、频繁子序列（又称序列模式）和频繁子结构。频繁项集一般指频繁在事务数据集中一起出现的商品的集合，如小卖部中被许多顾客频繁地一起购买的牛奶和面包；频繁出现的子序列如顾客倾向于先购买便携机，再购买数码相机，然后再购买内存卡的这样一个序列模式；子结构可能涉及不同的结构形式（如图、树等），可以与项集或子序列结合在一起。

（3）分类与回归

分类的过程：找出描述和区分数据类或概念的模型，以便能够用模型预测类标号未知的对象的类标号。导出模型是基于对训练数据集（类标号已知的数据对象）的分析，该模型用来预测类标号未知的对象的类标号。导出模型可以用多种形式表示，如分类规则（即IF-THEN规则）、决策树、数学公式、神经网络、朴素贝叶斯分类、支持向量机和k最邻近分类等。

分类预测类别（离散的、无序的）标号，而回归建立连续值函数模型。即，回归用来预测缺失的或难以获得的数值数据值，而不是类标号。数值预测有很多方法，但是回归分析是一种最常使用的数值预测的统计学方法，相关分析通常在分类和回归之前进行，它用于识别与分类和回归过程显著相关的属性，这些属性用于接下来的分类和回归过程。

（4）聚类分析

聚类分析数据对象，不考虑类标号，对象根据最大化类内相似性、最小化类间相似性的原则进行聚类或分组。也就是说，同一簇中的对象具有很高的相似性，而与其他簇的对象很不相似。

（5）离群点分析

数据集中可能包含一些数据对象，它们与数据的一般行为或模型不一致，这些对象是离群点，大部分的时候这些离群点会被遗弃，但有些应用中（如欺诈检测），罕见的事件可能比正常的事件更令人感兴趣。离群点分析也称异常挖掘。

二数据挖掘的应用

数据挖掘是一门应用驱动的学科，它在生物信息、软件工程等领域都有着很深入的应用，这里以数据挖掘应用非常成功的两个方面进行简要的描述：

（1）商务智能

商务智能（BI）技术提供商务运作的历史、现状和预测视图，包括报告、联机分析处理、商务业绩管理、竞争情报、标杆管理和预测分析等。在商务智能领域，如果没有数据挖掘，企业就不能进行有效的市场分析，比较类似产品的顾客反馈，发现竞争对手的优劣势从而做出聪明的商务决策。

数据挖掘是商务智能的核心，商务智能的联机分析处理工具依赖于数据仓库和多维数据挖掘，分类和预测技术是商务智能预测分析的核心，在分析市场、供应和销售方面存在许多应用。此外，在客户关系管理方面，聚类起主要作用，它根据顾客的相似性将顾客分组。利用特征挖掘技术，可以更好的理解每组顾客的特征，并开发定制的顾客奖励计划。

（2）Web搜索引擎

Web搜素引擎是一种专门的计算机服务器，在Web上搜索信息。Web搜索引擎本质上是大型数据挖掘应用，搜索引擎全方位地使用各种数据挖掘技术，包括爬行（例如决定爬过哪些页面和爬行频率），索引（选择被索引的页面和决定构建索引的范围）和搜索（确定如何排列各个页面、加载何种广告、如何把搜索结果个性化或使之“环境敏感”）。

搜索引擎对数据挖掘提出了巨大的挑战：

首先，搜素引擎常常需要使用数以千记甚至万记得计算机组成的计算机云来处理不断增加的海量数据，对此，将数据挖掘方法升级到计算机云和大型分布数据集上是一个需要进一步研究的领域。

其次，Web搜索引擎常常需要处理在线数据，如何快速的维护和增量模型，对于大部分基于离线和静态的模型训练方法是一个挑战。

还有，Web搜索引擎常常需要处理出现次数不多的查询，假设搜索引擎想要提供环境敏感的推荐。也即，当用户提交一个查询，搜索引擎试图用用户的简况和他的查询历史推断查询的环境以便快速的返回更加个性化的回答，对于数据挖掘和机器学习来说，这种严重倾斜的数据也是一个挑战。

以上主要来自《数据挖掘概念与技术》第一章的引论。