《机器学习》笔记 第1章——绪论 : 基本术语/假设空间的基础概念

1.1 引言

  • 一句话概念: 机器学习致力于通过计算来获得经验, 并通过经验来改善系统自身的性能.
  • 经验: 使用学习算法 训练数据集产生 经验
  • 学习算法: 能基于数据集产生模型(model), 如"一颗决策树"; 或者局部性结果: 例如一条规则.
  • "模型": 泛指从数据中学得结果, 面对新的输入数据可以进行抉择
  • 总之: 机器学习是 一门"学习算法"的学问

1.2 基本术语 (以卖西瓜为例)

  • 数据集: 所有西瓜的集合

  • 样本: 每条记录

  • 属性/特征: 每个维度

  • 属性空间/样本空间: 例如将西瓜的颜色/质量/敲省三个向量组合成一个坐标向量, 也被成为"特征向量"

  • 维数: 西瓜的特殊数量

  • 学习/训练: 学得模型的过程

  • 分类: 将要预测的结果值是离散的, 如好瓜/坏瓜, 如冬瓜/西瓜等

  • 回归: 将要预测的是连续值, 例如西瓜九月份的成熟度: 0.12,0.13,0.14..., 此类任务称为回归

  • 聚类: 将训练集中的西瓜分成若干组, 每个组称为一个"簇", 例如按颜色分类: 红色西瓜/绿色西瓜/黑色西瓜等, 如按皮的薄厚进行区分..

  • 簇: 具有某一共同特征的集合

  • 监督学习(学习任务类型): 分类和回归

  • 非监督学习(学习任务类型): 聚类是非监督学习的代码

  • 泛化(generalization): 学得模型适用于新样本的能力, 称为"泛化"; 泛化能力越强, 适用于整个样本空间的能力也越强

  • 分布(distribution): 假设样本空间中全体样本服从于一个未知的分布, 一般人物, 训练样本越多, 我们得到关于"分布"的信息也越多, 泛化能力一般可以得到提高

  • 独立同分布: 我们获得的样本都是从这个样本空间中获取的, 简称i,i,d

1.3 假设空间

  • 归纳(induction): 是从特殊到一般的泛化过程,是从具体的事实归纳出一般性规律
  • 演绎(deduction): 一般到特殊的过程, 例如: 基于一组公理和推理规则导出与之相恰的定理, 即为演绎
  • 归纳学习: 从样例中学习
    - 广义: 广义的归纳学习大体相当于从样例中学习
    - 狭义: 狭义的归纳学习则要求从训练数据中学得概念CONCEPT, 亦可称为"概念学习"或者"概念形成"
  • 奥卡姆剃刀: 是一种常用的/自然科学研究中最基本的原则, 即 "最简单原则"
你不逼自己一把,你永远都不知道自己有多优秀!只有经历了一些事,你才会懂得好好珍惜眼前的时光!
原文地址:https://www.cnblogs.com/zhazhaacmer/p/13640870.html