初识机器学习_01

  一:机器学习应用领域:信息检索,数据挖掘,搜索引擎,社交网络,推荐引擎,计算广告,电子商务。与“大数据,深度学习,知识图谱”也关系密切

  二:机器学习分类:

    监督学习:用户知道目标,知道从数据中找什么  

      监督学习:分类{k-近邻,决策树,logistic回归,概率论分类器,SVM , AdaBoost}

             回归

    无监督学习:从算法中得到数据共同特征(聚类,密度估计)

      无监督学习:数据无类别,无目标值

  三:算法选择的一般原则:

    基于目的:

        预测目标变量的值-->监督学习算法{

                        目标变量值类型为离散:分类器算法(机器学习主要任务)

                        目标变量值类型为连续型:回归

                        }

        其他无目标变量-->无监督学习算法

                        {

                        唯一需求为划分离散组:聚类

                        除分组外,估计 数值与分组相似程度:密度估计算法 

                        }

    基于数据:

        特征值为离散/连续,特征值是否存在缺失,缺失的原因,数据中是否存在异常,某特征发生频率。

  四:开发机器学习应用程序的步骤

    (1)收集数据:网络爬虫,RSS反馈,API,设备

    (2)准备输入数据:确保数据格式符合程序语言要求,同时为机器学习算法准备特定数据格式

    (3)分析输入数据:(人工分析,确保前两步有效)

    (4)训练算法(无监督学习不需要训练算法,直接到第五步)

    (5)测试算法:

        监督学习必须已知用于评估算法的目标变量值

        无监督学习:用其他的评测手段检验算法的成功率

    (6)使用算法   

原文地址:https://www.cnblogs.com/govin/p/3681664.html