数据挖掘

    数据挖掘通常又称为数据中的知识发现(KDD),是自动 地或方便地提取代表知识的模式,这些模式隐藏于大型数据库,数据仓库,Web,其他大量信息库或数据流中。
 
    作为一个多学科领域,数据挖掘从多个学科汲取营养。这些学科包括统计学,机器学习,模式识别,数据库技术,信息检索,网络科学,知识库系统,人工智能,高性能计算和数据可视化。我们提供发现隐藏于大型数据集中的模式的技术,关注可行性,可用性,有效性和可伸缩性问题。
 
    最近出现的一种数据存储结构是数据仓库,数据仓库是一种多个异构数据源在单个站点以统一的模式组织的存储,以支持管理决策。数据仓库技术包括数据清理,数据集成和联机分析树立(OLAP)。OLAP是一种分析技术,具有汇总,合并,和聚集以及从不同的角度观察信息的能力。尽管OLAP支持多维分析和决策,但是一般对于深层次的分析,仍然需要其他分析工具,提供数据分类,聚类,离散点/异常检测和刻画数据随着时间变化等特征的数据挖掘工具。
 
数据库和信息系统的发展
  1. 数据收集和数据库创建
    • 原始文件处理
  2. 数据库管理系统
    • 层次和网状数据库系统
    • 关系数据库系统
    • 数据建模:实体-联系模型
    • 索引和存取方法
    • 查询语句:SQL等
    • 查询优化和处理
    • 事务,并发控制和恢复
    • 联机事务处理
  3. 高级数据库系统
    • 高级数据模型:扩充关系的,对象--关系的,演绎的等
    • 管理复杂的数据:空间的,时间的,序列和结构化的,科学的,工程的,移动过对象的
    • 数据流和物联网数据系统
    • 基于Web的数据库(XML,语言Web)
    • 非常大的数据的管理
    • 管理不确定数据和数据清理
    • 异构源的集成
    • 数据库调整和自适应系统
    • 高级查询:排位,skyline等
    • 云计算与并行数据处理
    • 数据隐私和安全问题
  4. 高级数据分析
    • 数据仓库与联机分析处理
    • 数据挖掘与知识发现:分类,聚类,离散点分析,关联与相关性,比较汇总,判别分析,模式发现,趋势和偏差分析
    • 挖掘复杂的数据类型:流,序列,文本,空间,时间,多媒体,web,网络
    • 数据挖掘应用:商业,社会,零售,银行,电信,科学与工程,博客,日常生活。
    • 数据挖掘与社会
 
数据挖掘----数据中的知识发现(KDD):
 
  1. 数据清理:清楚噪声和删除不一致数据
  2. 数据集成:多种数据源可以组合在一起
  3. 数据选择:从数据库中提取与分析任务相关的数据
  4. 数据变换:通过汇总或聚集操作,把数据变换和统一成适合挖掘的形式
  5. 数据挖掘:基本步骤,使用智能方法提取数据模式
  6. 模式评估:根据某种兴趣度度量,识别代表知识的真正有趣的模式
  7. 知识表示:使用可视化和知识表示技术,向用户提供挖掘的知识
注:步骤1--4是数据预处理的不同形式,为挖掘准备数据。
 
可以挖掘什么类型的数据:
 
作为一种通用技术,数据挖掘可以用于任何类型的数据。数据的最基本形式是数据库数据,数据仓库数据和事务数据。
数据仓库是一个从多种数据源收集的信息存储库,存放在一致的模式下,并且通常驻留在单个站点上。数据仓库通过数据清理,数据变换,数据集成来构造。
通常数据仓库使用称作数据立方体(data cube)的多维数据结构建模。其中,每个维对应于模式中的一个或一组属性,而每个单元允许某种聚集度量值。
 
 
可以挖掘什么类型的模式:
 
存在大量数据挖掘功能,包括特征化与区分,频繁模式,关联和相关性挖掘,分类与回归,聚类分析,离群点分析。
数据挖掘功能用于指定数据挖掘任务发现的模式。一般而言,这些任务可以分为两类:描述性和预测性。
  • 描述性挖掘任务刻画目标数据中数据的一般性质。
  • 预测性挖掘任务在当前数据上进行归纳,以便做出预测。
 
类/概念描述:
  1. 数据特征化是目标类数据的一般特性或特征的汇总。
  2. 数据区分是将目标类数据对象的一般特征与一个或多个对比类对象的一般特征进行比较。
  3. 概念描述(包括特征化和区分)
 
频繁模式(frequent pattern)是数据中频繁出现的模式。存在多种类型的频繁模式,包括频繁项集,频繁子序列,和频繁子结构。
关联分析
  • 单维关联规则(涉及单个重复的属性或者谓词)
  • 多维关联规则
最小支持度阈值/最小置信度阈值/统计相关性
 
分类(classification):找出描述和区分数据类或概念的模型(或者函数),以便能够使用模型预测类标号未知的对象的类标号。
  • 决策树
  • 神经网络
  • 朴素贝叶斯
  • 支持向量机
  • K最近邻分类
 
聚类(clustering)分析数据对象,而不考虑类标号。对象根据最大化类内相似性,最小化类间相似性的原则进行聚类或分组。
 
离群点分析(异常挖掘)
 
模式事有趣的吗(有意义的)?
  • 易于被人理解
  • 在某种确信度上,对于新的或检验数据是有效的
  • 潜在有用的
 
机器学习:考察计算机如何基于数据学习。
  • 监督学习
  • 无监督学习
  • 半监督学习
  • 主动学习
 
信息检索:
  • 信息检索(IR)是搜索文档和文档中信息的科学。文档可以是文本或多媒体,并且可能驻留在Web上。
  • 信息检索的典型方法采用概率模型。
 
商务智能
  • 商务智能(BI)技术提供商务运作的历史、现状和预测视图,例子包括报告、联机分析处理、商务业绩管理、竞争情报、标杆管理和预测分析。
  • 分类和预测技术是商务智能预测分析的核心,在分析市场、供应和销售方面存在许多应用
 
Web搜索引擎:
 
Web搜索引擎是一种专门的计算机服务器。搜索引擎不同于网络目录,因为网络目录是人工编辑管理的,而搜索引擎是按算法运行的,或者是算法和人工输入的混合。
 
Web搜索引擎本质上是大型数据挖掘应用。搜索引擎全方位地使用各种数据挖掘技术,包括爬行(例如,决定应该爬过哪些页面和爬行频率)、索引(例如,选择被索引的页面和决定构建索引的范围)和搜索(例如,确定如何排列各个页面、加载何种广告、如何把搜索结果个性化或使之“环境敏感”)。
 
搜索引擎对数据挖掘提出了巨大挑战。
 
首先,它们必须处理大量并且不断增加的数据。
 
其次,Web搜索引擎通常需要处理在线数据。
 
另一个挑战是在快速增长的数据流上维护和增量更新模型。
 
第三,Web搜索引擎常常需要处理出现次数不多的查询
 
 
用户界面
 
用户在数据挖掘过程中扮演重要角色。有趣的研究领域包括如何与数据挖掘系统交互,如何在挖掘中融入用户的背景知识,以及如何可视化和理解数据挖掘的结果。
 
- 交互挖掘:数据挖掘过程应该是高度交互的。
- 结合背景知识:应当把背景知识、约束、规则和关于所研究领域的其他信息结合到发现的过程中。
- 特定的数据挖掘和数据挖掘查询语言
- 数据挖掘结果的表示和可视化
 
 
有效性和可伸缩性
 
- 数据挖掘算法的有效性和可伸缩性:数据挖掘算法的运行时间必须是可预计的、短的和可以被应用接收的。
- 并行、分布式和增量挖掘算法
 
 挖掘方法
 
- 挖掘各种新的知识类型
- 挖掘多维空间中的知识
- 数据挖掘——跨学科的努力
- 提升网络环境下的发现能力
- 处理不确定、噪声或不完全数据
- 模式评估和模式或约束指导的挖掘
 
 
数据挖掘与社会
 
- 数据挖掘的社会影响
- 保护隐私的数据挖掘
- 无形的数据挖掘
 
 
小结
 
- 数据挖掘是从海量数据中发现有趣模式的过程。作为知识发现过程,它通常包括数据清理、数据集成、数据选择、数据变换、模式发现、模式评估和知识表示。
- 一个模式是有趣的,如果它在某种确信度上对于检验数据是有效的、新颖的、潜在有用的 ,并且易于被人理解。有趣的模式代表知识。模式兴趣度度量,无论是客观的还是主主观的,都可以用来指导发现过程。
- 我们提供了一个数据挖掘的多维视图。主要的维是数据、知识、技术和应用。
- 只要数据对于目标应用是有意义的,数据挖掘可以在任何数据类型的数据上进行,如数据库数据、数据仓库数据、事务数据和高级数据类型等。高级数据类型包括时间相关的或序列数据、数据流、空间和时空数据、文本和多媒体数据、图和网络数据、Web数据。
- 数据仓库是一种用于长期存储数据的仓库,这些数据来自多个数据源,是经过组织的,以便支持管理决策。这些数据在一种统一的模式下存放,并且通常是汇总的。数据仓库提供一些数据分析能力,称做联机分析处理。
- 多维数据挖掘(又称探索式多维数据挖掘)把数据挖掘的核心技术与基于OLAP的多维分析结合在一起。它在不同的抽象层的多维组合中搜索有趣的模式,从而探索多维数据空间。
- 数据挖掘功能用来指定数据挖掘任务发现的模式或知识类型,包括特征化和区分,频繁模式、关联和相关性挖掘,分类和回归,聚类分析和离群点检测。
- 作为一个应用驱动的领域,数据挖掘融会来自其他一些领域的技术。这些领域包括统计学、机器学习、数据库和数据仓库系统,以及信息检索。数据挖掘研究月开发的多学科特点大大促进了数据挖掘的成功和广泛应用。
- 数据挖掘有许多成功的应用,如商务智能、Web搜索、生物信息学、卫生保健信息学、金融、数字图书馆和数学政府。
- 数据挖掘研究存在许多挑战性问题。领域包括挖掘方法、用户交互、有效性和可伸缩性,以及处理多种多样的数据类型。
原文地址:https://www.cnblogs.com/carleunderwood/p/7149801.html