监督学习的知识（参考）

基础

目标
利用一组带有标签的数据，学习从输入到输出的映射，然后将这种映射关系应用到未知数据上，达到分类或者回归的目标
分类：输出离散，为分类
回归：输出连续，为回归

分类

评价标准

精确率，二分类为例，表示的是预测为正的样本中有多少是真正的正样本。把正预测为正（TP），把负预测为正（FP）。P=TP/(TP+FP).
召回率：针对原样本而言，表示的是样本中的正例有多少被预测正确了。正预测为正（TP），正预测为负(FN)。R=TP/(TP+FN)。

sklearn的分类算法

并未封装在一个子模块中
分类函数包括：k近邻（knn），朴素贝叶斯（naivebayes），支持向量机（svm），决策树（decision tree），神经网络（Neural networks）等，其中有线性分类器、非线性分类器

应用：

金融：贷款是否批准
医疗欺诈：肿瘤恶性良性
欺诈检测：一笔银行的交易是否存在欺诈
网页分类：网页的所属类别，财经还是娱乐

knn分类器

计算待分类数据与已有数据的距离，选取前k个距离小的值，以少数服从多数的原则，查看k个数据对应的分类，以此作为新数据的分类。
sklearn.neighbors.KNeighborsClassifier

决策树

本质上寻找一种对特征空间上的划分，旨在构建一个训练数据拟合的好且复杂度小的决策树。
sklearn .tree.DecisionTreeClassifier

朴素贝叶斯

以贝叶斯定理为基础的多分类的分类器
对于给定数据，首先基于特征的条件独立性假设，学习输入输出的联合概率分布，然后基于此模型，对给定的输入，利用定理求出后验概率最大的输出。
高斯朴素贝叶斯naive_bayes.GaussianNB
针对多项式模型的朴素贝叶斯分类器naive_bayes.GaussianNB
针对多元伯努利模型的朴素贝叶斯分类器
区别在于假设某一特征的所有属于某个类别的观测值符合特定分布。

回归

寻找两个变量之间或者多个变量之间的关系，建立模型。
两个子模块，sklearn.linear_model和sklearn.preprocessing。
普通线性回归
岭回归ridge
Lasso
回归方法常用于带有时序信息的数据进行预测或者趋势拟合，常用在金融及其他涉及时间序列分析的领域
股票趋势预测
交通导流预测

线性回归的实际用途

1、预测
2、量化变量之间的相关性的强度等