机器学习基础---概述

一：机器学习定义

一个程序被认为能够从经验E中学习，解决任务T，达到性能度量值P，当且仅当，有了P的评判后，程序在处理T时的性能有所提升。

举例：下棋游戏中，经验e就是程序上万次的自我练习的经验，而任务t就是下棋。性能度量值p就是与新的对手比赛时赢的比赛的概率。

二：监督学习与非监督学习

（一）监督学习---我们会教计算机做某事（每个样本都有对应的正确答案，如回归问题）

监督学习是指我们给算法一个数据集，其中包含了正确答案，在这个数据集中的每个样本，我们都给出了正确的结果，算法的目的就是给出更多的正确答案。

监督学习是指利用一组已知类别的样本调整分类器的参数，使其达到所要求性能的过程，也称为监督训练或有教师学习。在监督学习的过程中会提供对错指示，通过不断地重复训练，使其找到给定的训练数据集中的某种模式或规律，当新的数据到来时，可以根据这个函数预测结果。监督学习的训练集要求包括输入和输出，主要应用于分类和预测。

（二）无监督学习---我们让计算机自主学习（样本无对应答案，属于自主学习，如分类聚类问题）

只知道有这样一个数据集，不知道每个数据点含义。

与监督学习不同，在非监督学习中，无须对数据集进行标记，即没有输出。其需要从数据集中发现隐含的某种结构，从而获得样本数据的结构特征，判断哪些数据比较相似。因此，非监督学习目标不是告诉计算机怎么做，而是让它去学习怎样做事情。

对于给定的数据集，无监督学习算法可能判定该数据集包含两个不同的簇；这就是聚类算法

聚簇算法，例如：将有关同一主题的新闻显示在一起，或者应用在基因处理中。

其他应用：