ML基础01-概论

0.前言

学习机器学习有几年时间了，开始一直是零零碎碎断断续续学一些东西，断续琐碎；后面慢慢地把各个点串起来，形成了体系。早有打算整理出来，但是总觉得有些地方理解欠佳，不敢轻易动笔。最近把各个部分都思考了一下，感觉应该问题不大了，遂准备着手整理成一系列文章。记录自己对机器学习的一些理解，以备忘。

也希望将来有更多的人看到我的博客，一起讨论。博文里面很多东西都是自己的理解，其中错误和不足之处望批评指出。不断提高。

以下是正篇。

1.机器学习的目标

机器学习的目标是从数据中发现关系，并用形式化的方法表达这种关系。在这一目标中，有两个核心：一是数据；一是关系。

数据是因，关系是果。机器学习的过程就是从数据中发现关系的过程。

2.机器学习的分类

前面说到，机器学习的两个核心是数据和关系，机器学习是建立沟通数据和关系的过程。那么对于不同的数据，和不同的发现过程，可以有不同的分类。

一般来说，依据数据和学习过程的差异，可以把机器学习分为4类：监督学习、非监督学习、半监督学习和强化学习。

监督学习：对于监督学习，数据至少有两种类型，一是训练数据，一是预估数据。训练数据中的每一条数据应该包含两部分：特征和标识。特征是自变量，标识是因变量。监督学习的过程，就是从训练数据中，寻找因变量和自变量的最可能的关系。因为这种关系对数据是一种近似刻画，也就是说，学习发现的关系和真实的关系存在差异。学习的过程，就是比较学习得到的关系和真实的数据之间的差异，让差异最小化的过程。

非监督学习：非监督学习中，训练数据无标识。学习的过程是希望发现数据中的一种内在机构，或者说是要发现数据间的内在关系。

半监督学习：半监督学习的数据，部分有标识，部分无标识。半监督学习，首先通过对无标识数据进行建模，发现其内在结构，继而在有标识数据上进行学习，发现关系。

强化学习：强化学习数据，和监督类似，是有标识地。不同之处在于，监督学习是从数据整体出发直接发现关系；强化学习是，先从部分数据中找到关系，继而使用新的数据作为这种关系的反馈，优化这种关系。

3.机器学习的组件

机器学习应该包含三个过程：数据预处理、关系发现、效果评估。

数据预处理的工作属于特征工程。包括特征获取、特征清洗、特征降维、特征选择等。

关系发现应该包含三个部分：模型、策略和算法。模型是实际问题形式化的描述；策略是模型与实际数据的差异的刻画；算法是模型计算的方法。

效果评估是对模型的结果进行估计，用来刻画模型对真实环境的表达能力。

3.1、特征工程

参考以下文章:

3.2、算法

3.2.1、模型

罗列了一些常见算法如下(点击可阅读相关文章):

3.2.2、策略

损失函数和参数估计

3.2.3、算法

算法初步: 常用优化算法

3.3、效果评估

模型评估

4.机器学习的应用

机器学习在越来越多的场景得到广泛使用。

具体到工业界，现在主流的应用场景包括作为底层基础技术的语音、图像、NLP；在应用层面上，主要是搜索、推荐和广告。

4.1、搜索和排序

参考：Rank

4.2、推荐

参考：推荐系统

4.3、广告

参考：计算广告

4.4、NLP

参考：Rank

如果发现文中有问题，敬请联系作者批评指正，真诚欢迎您的指教，谢谢！

微信: legelsr0808

邮箱: legelsr0808@163.com