《机器学习十讲》学习报告一

一,大数据的基本公式:

 机器学习就是在获得很多组的x数据和y数据以后获得F映射的一个过程

深度学习是机器学习的一部分,就是在获得data后提取出x数据的过程

如果数据y用来模仿人类的行为,例如自动驾驶等,就称其为人工智能

二,机器学习方法分类:

1,有监督学习

就是数据y包含已经有的结果标签

用处:回归,分类

2,无监督学习

只有数据x,没有结果数据y

用处:聚类,降维,排序,密度估计,关联规则挖掘

3,强化学习

没有数据,通过模拟和观察生成数据进行学习

三,机器学习基本概念:

数据集:一组样本的集合

样本:一条数据的一行

特征:样本里面每一个可变的数据

训练集:用来训练模型

测试集:用于测试模型

模型:建立数据x和数据y的映射关系

损失函数:和实际值进行对比

优化目标:

机器学习一般流程:

四, 常见问题

过度拟合问题:模型过于复杂,导致对已知数据预测很好,对未知预测很差

解决方法:

 模型选择:

交叉验证,重复使用数据

机器学习的数学结构:

度量结构:

以文章相似度为例:

以字为坐标,字频为坐标值,将其表示为一个向量,然后两个文章求余弦,得出相似度

网络结构:

提取中心句为例:

将文本分成句子,将句子进行相似度比对,将句子连成网络形式

选出出度,入度最大的即为中心句

代数结构:

集合结构:

..........

原文地址:https://www.cnblogs.com/520520520zl/p/14330977.html