机器学习十讲01

2021.1.26
================
概论
人工智能>机器学习>深度学习
机器学习问题
数据->聚类、分类、预测、异常值分析
机器学习的基本方法
监督学习
1、数据集中的样本带有标签，有明确目标。
2、回归和分类。
无监督学习
1、数据集中的样本没有标签，没有明确目标。
2、聚类、降维、排序、密度估计、关联规则挖掘
*强化学习（介于前两者之间）
1、智慧决策的过程，通过过程模拟和观察来不断学习，提高决策能力
2、alphgo
基本概念
数据集：一个样本集合
样本：数据集的一行。一个样本包含一个或多个特征，此外还可能包含一个标签。
特征：进行预测时使用的输入变量。
训练集：用于训练模型的数据集。
测试集：用于测试
模型：x，y之间的映射关系。
损失函数：
优化目标：
监督学习
回归问题
样本数据有目标、标签，类似高中的误差分析。
分类
数据样本是集散类型
找一根分割线将数据分开，具有最大分割距离是最好的
有的数据线性不可分，可以升维。
无监督学习
概念：将数据集中相似的数据进行分组
例子：K——Means聚类
过度拟合问题
模型过于复杂导致已知数据预测的很好，但对未知数据预测很差。
正则化
模型选择
交叉验证
K折交叉验证