机器学习综述

机器学习综述

从海量数据中抽取有价值的信息
机器学习的任务是分类，将实例数据划分到合适的分类中
一般是使用训练集样本作为算法的输入，训练完成之后输入测试样本

监督学习

已知类别的样本，知道预测什么，从标记的训练数据集推断一个功能的机器学习任务

常见的监督学习包括分类和回归
knn算法
朴素贝叶斯算法
支持向量机
决策树
线性回归
局部加权线性回归
Ridge回归
lasso最小回归系数估计

无监督学习

数据没有类别信息，也不会给定目标值。将数据集分成由类似的对象组成的多个类的过程叫做聚类，将寻找描述数据统计值的过程称之为密度估计

k-means
DBSCAN
最大期望算法

如何选择合适的算法

若是预测目标变量的值，可以选择监督算法
若需要将数据化为离散的组，则需要进行聚类
需要考虑数据是离散变量还是连续变量，特征值中是否存在缺失值，是何种原因造成的缺失值，数据中是否存在异常值，某个特征发生的频率如何

分析步骤

收集数据
处理数据
分析数据，可以通过图形的展示
训练算法（针对监督学习的，无监督学习不需要训练算法
评估算法
应用

需要掌握的python的几个库

numpy
pandas
scikit-learn
待补充

【推广】免费学中医，健康全家人

原文地址：https://www.cnblogs.com/gaowenxingxing/p/12290923.html