《数据挖掘：理论与算法》学习笔记（一）走进数据科学

什么是数据

大概的意思是一些定量或者定性的属性，比如一个人的身高体重，年龄，性别，婚姻状况等等。

数据预处理：主要包含以下主题

聚集：将两个或多个对象合并成单个对象

抽样：简单随机抽样（有放回和无放回），分层抽样，渐进抽样

维规约：通过创建新属性，将一些旧属性合并在一起降低数据集的维度。重要概念：维灾难和线性代数技术（PCA主成分分析和SVD奇异值分解）

特征子集选择：三种标准特征选择方法（嵌入，过滤，包装）

特征创建：三种创建新属性的方法（特征提取，映射数据到新的空间和特征构造）

离散化和二元化：二元化，连续属性离散化（非监督离散化，监督离散化），具有过多值的分类属性

变量变换：指用于变量的所有值的变换，两种重要的变量变换类型（简单函数变换和规范化）

信息
信息比数据高一个层面，数据通过处理才叫信息。

Data Rich，Information Poor
数据非常多，但是从数据中挖掘出有用的数据非常少

什么是大数据

大数据的特点：high-volume，high-velocity，high-variety（数据量大、数据产生的速度快、数据的类型多样）

麦肯锡对于大数据的定义：传统的方法无法处理的数据，存也存不下，处理也无法处理的数据。

什么是数据挖掘

数据挖掘一般是指从大量的数据中通过算法搜索隐藏于其中信息的过程。数据挖掘通常与计算机科学有关，并通过统计、在线分析处理、情报检索、机器学习、专家系统（依靠过去的经验法则）和模式识别等诸多方法来实现上述目标。

数据挖掘是一个多学科交叉的邻域
在这里插入图片描述

知识发现 = 数据挖掘

数据帮助人们进行决策的过程
在这里插入图片描述
数据挖掘的过程（像软件开发的瀑布模型）

分类问题

数据挖掘的第一个问题是分类问题，先前有一些给出标签的样本，总结出每种类型的知识，然后利用这些知识对新的样本进行预测。
在这里插入图片描述
分类问题的核心是找出分界面（分界面可能是简单的直线或者多个直线或者是曲线）

如果模型过于复杂，可能导致过拟合的现象（图中的绿色分界线）

我们的数据集会被分成训练集和测试集，训练集用于生成模型，测试集用于预测模型。