《机器学习十讲》第十讲总结

  源地址(本节课无案例):http://cookdata.cn/auditorium/course_room/10021/

往期的课程总结均已在开头处标明了视频源网址,相关案例在视频下方,相关案例若无法下拉查看可以通过F12(谷歌为例)在相应代码中找到网址。

 下面进入正题

《机器学习十讲》——第十讲(强化学习)

       回顾

机器学习方法:有监督学习,无监督学习,强化学习

有监督学习:有标签有目标

无监督学习:无标签,无目标

强化学习:过程模拟和观察进行学习。

强化学习

策略:在特定状态下应该怎么采取行动。

目标:找到最佳策略,即能够获得最大奖励的策略。

数学模型:马尔可夫决策过程(MDP)

强化学习方法形式化为MDP,MDP是序列决策算法的一般数学框架

通常将MDP表示为四元组(S,A,P,R):

S是离散状态;A可能是离散,也可能是连续的;P通常用来描述模型。

马尔可夫假设:状态不断转移,随着时间可以写成St→St+1→St+2,而在St+2这个时间段时若给定了St+1状态,那么它跟St及以前的状态是没有关系的。

策略:在马尔可夫决策过程中,最终需要求解一个策略,它是行动和状态之间的映射,分为确定性策略和随机性策略:

随机性:可能是一个概率取值。

确定性:非左即右。

目标:

多臂Tiger机问题(MAB):探索与利用的权衡

Tiger机有K个摇臂,每个摇臂以一定的概率吐出金币,投入硬币后只能选择其中一个摇臂,目的是通过一定的策略使自己的奖励最大,即得到更多的金币:

强化学习的方法分类

状态价值函数

实际操作更加复杂,策略下进行状态价值函数运算属于理想情况。

状态-行动价值函数

如何学习

此方法属于是抽样办法

Q-Learning

α是学习率

Q表:建立一个表格用来存储状态和行动对应的Q值即Q(s,a),个数与行动不宜太多。

在Q-Learing的基础上提出了新的方法:

深度强化学习DQN

背景:在Q-Learning中,当状态和行动空间是离散且维数不高时,用Q-Table储存每个状态行动对的Q值可以实现行动决策。而当状态和行动空间是高维连续时,使用Q-Table是不现实的。

DQN:在DQN中卷积神经网络的输入为状态s,输出为s下每一个行动a对应的Q值

核心创新:经验回放和目标网络。

在Q-Learning中引入参数学习

Q表本质上是一种映射,把状态映射为行动

 图示如下

基于策略的方法

典型代表是策略梯度算法

优化目标和方法:

Actor-Critic方法

强化学习的应用

新材料发现:通过已进行的实验结果进行训练模型,可以预测下一步用什么材料更好,从而减少实验次数,减少成本。

推荐系统:将推荐系统看作智能体(Agent),用户看作环境(Environment),推荐系统与用户的多轮交互过程可以建模为MDP,经过多轮交互之后,推荐系统学习到用户的习惯和偏好。

出租车派单:

智能交通:

图像修复

设计多种(12种)图像修复工具,DQN比现有图像修复模型复杂度低,修复能力更优异。

工具的选择视为马尔可夫决策过程(MDP)

机器学习/数据科学的知识体系

数学方面:微积分,概率论,优化方法,统计学

计算机方面:python,数据结构与算法,数据库

数据方面:数据采集,数据管理,数据清洗,数据可视化,分布平台(Hadoop,Spark,Flink)

行业认识:对涉及的领域要有一定的理解,并将其他知识融入进去

学习方法建议(初学者,重点)

原文地址:https://www.cnblogs.com/20183711PYD/p/14377131.html