机器学习十讲第一讲

机器真的会学习吗

该讲初步介绍了机器学习的概念、分类、及其应用场景

机器学习定义

机器学习领域的创始人Arthur Samuel(亚瑟·塞缪尔)早在1959年就给机器学习(Machine Learning,ML)下了定义:机器学习是这样的一个研究领域,它能让计算机不依赖确定的编码指令来自主的学习工作。

机器学习方法分类

有监督学习(supervised learning)

  • 数据集中的样本带有标签,有明确目标

  • 目标:找到样本到标签的最佳映射

  • 应用场景:垃圾邮件分类、病理切片分类、客户流失预警、客户风险评估、房价预测等

  • 典型方法

    1. 回归模型:线性回归、岭回归、LASSO和回归样条等
    2. 分类模型:逻辑回归、K近邻、决策树、支持向量机等

无监督学习(unsupervised learning)

  • 根据数据本身的分布特点,挖掘反映数据的内在特性

  • 数据集中的样本没有标签,没有明确目标

  • 主要用于聚类、降维、排序、密度估计、关联规则挖掘

  • 应用场景(这里主要例举了聚类的应用):

    1、基因表达水平聚类:根据不同基因表达的时序特征进行聚类,得到基因表达处于信号通路上游还是下游的信息

    2、篮球运动员划分:根据球员相关数据,将其划分到不同类型(或者不同等级)的运动员阵营中

强化学习(reinforcement learning)

  • 智慧决策的过程,通过过程模拟和观察来不断学习、提高决策能力,例如:AlphaGo
  • 强化学习是机器学习中的一个领域,强调如何基于环境而行动,以取得最大化的预期利益。其灵感来源于心理学中的行为主义理论,即有机体如何在环境给予的奖励或惩罚的刺激下,逐步形成对刺激的预期,产生能获得最大利益的习惯性行为
  • 基本概念:
    1. agent:智能体
    2. envirment:环境
    3. state:状态
    4. action:行动
    5. reward: 奖励
  • 策略:Π(a|s)
  • 目标:求解最大化效用的最优策略
  • 附上原理图:

1624508417449

机器学习中的基本概念

  • 数据集:一组样本的集合
  • 样本:数据集的一行。一个样本包含一个或多个特征,此外还可能包含一个标签
  • 特征:在进行预测时使用的输入变量,即数学中我们经常定义的自变量X
  • 训练集:用于训练模型的数据集
  • 测试集:用于测试模型的数据集
  • 模型:建立数据的输入x和输出y之间的映射关系 y = f(x)
  • 损失函数:L(yi ,f(xi)) 例如,对回归问题可以定义为(f(xi)-yi)2

1624509703460

机器建模遇到的问题及解决办法

欠拟合

  • 欠拟合:模型训练过程中,可能训练样本被提取的特征比较少,导致训练出来的模型不能很好地匹配,表现得很差,甚至样本本身都无法高效的识别。

1624510787199

欠拟合解决办法: 欠拟合基本上都会发生在训练刚开始的时候,经过不断训练之后欠拟合应该不怎么考虑了。但是如果真的还是存在的话 先增加 增加网络复杂度或在模型中增加特征

过拟合

  • 过度拟合:模型过于复杂(例如参数过多),导致所选模型对已知数据预测得很好,但对未知数据预测很差,即我们常说的数据泛化差

1624511530165

  • 导致过拟合原因:
    1. 训练数据集样本单一,样本不足
    2. 训练数据中噪声干扰过大
    3. 模型过于复杂

过拟合解决办法:正则化、交叉验证、K折交叉验证

正则化

1624512354342

交叉验证

基本想法是重复地使用数据。将数据集划随机切分,将切分的数据集组合为训练集和测试集,在此基础上反复训练,测试和模型选择

K折交叉验证

1624512623788

数学结构

数据的数学结构是我们处理数据的前提

度量结构之K近邻

  • 随机选定一个样本点,通过计算数据之间的距离进行分类

1624535955557

  • k的选择

    K的数量不同,分类结果可能也不同

1624536182618

  • K近邻:提高计算速度

1624536266991

网络结构

有些数据本身就呈现出网络结构或者适合网络结构,比如社交

1624536685110

  • 网络结构之PageRank算法

1624536840743

其他数学结构

1624537040869

Scikit-learn

  • 主要模块

1624537143393

原文地址:https://www.cnblogs.com/weixiao1717/p/14926510.html