机器学习综述

机器学习综述

  • 从海量数据中抽取有价值的信息
  • 机器学习的任务是分类,将实例数据划分到合适的分类中
  • 一般是使用训练集样本作为算法的输入,训练完成之后输入测试样本

监督学习

已知类别的样本,知道预测什么,从标记的训练数据集推断一个功能的机器学习任务

  • 常见的监督学习包括分类和回归
  • knn算法
  • 朴素贝叶斯算法
  • 支持向量机
  • 决策树
  • 线性回归
  • 局部加权线性回归
  • Ridge回归
  • lasso最小回归系数估计

无监督学习

数据没有类别信息,也不会给定目标值。将数据集分成由类似的对象组成的多个类的过程叫做聚类,将寻找描述数据统计值的过程称之为密度估计

  • k-means
  • DBSCAN
  • 最大期望算法

如何选择合适的算法

  • 若是预测目标变量的值,可以选择监督算法
  • 若需要将数据化为离散的组,则需要进行聚类
  • 需要考虑数据是离散变量还是连续变量,特征值中是否存在缺失值,是何种原因造成的缺失值,数据中是否存在异常值,某个特征发生的频率如何

分析步骤

  • 收集数据
  • 处理数据
  • 分析数据,可以通过图形的展示
  • 训练算法(针对监督学习的,无监督学习不需要训练算法
  • 评估算法
  • 应用

需要掌握的python的几个库

  • numpy
  • pandas
  • scikit-learn
    待补充
原文地址:https://www.cnblogs.com/gaowenxingxing/p/12290923.html