【转载】学习《强化学习的落地实践》有感

原文地址：

https://bbs.huaweicloud.com/blogs/153200

===========================================

【摘要】强化学习被认为是实现通用人工智能的重要技术途径，近几年引起学术界和工业界的极大关注和投入。《强化学习的落地实践》围绕强化学习的发展历史，介绍强化学习背景，强化学习的最新研究进展，以及强化学习在业界的落地实践，并介绍该领域面临的挑战性问题和未来发展方向。

--------------------------------------------

今天观看了郝建业老师的《强化学习落地实践》的报告直播，颇有收获。

首先，郝建业老师对强化学习的基本知识、发展历史进行了讲解，展示了深度学习与强化学习的深层差异。

随后，老师讲解了目前的深度强化学习存在的问题：学习效率底下，所需资源庞大。相比之下，人类不是从头学习，而是从过往的知识中获取经验辅助学习。由此提出，将旧任务进行迁移到新任务、将旧任务的参数移植到新任务作为初始策略，让深度学习通过提取过往经验来加速学习进度。

同时，获取准确的监督信号十分重要。可以使用监督或者半监督的方法来修正监督信号，加速学习进度。

---------------------------------------------------------------------------

1、基于邻域认知一致性的多智体强化学习，对每个智能体进行建模，同时又保证相对隔离，确保学习效率。

2、多智体动作语义网络。对每个智能体的Q网络进行优化，两种Q值进行融合，对其监督信号进行修正。

3、多智能体强化学习-网络大脑。实际的场景应用有多WiFi场景。多个wifi会产生信号干扰，将问题建模成多智体的问题并进行针对性优化，保证速度的同时减少干扰，提高整个系统的效率。同理还有4G基站的优化，提高单个基站的强度和信噪处理能力比，优化多基站的协调配合。此优化还能应用于5G场景。

如何通过学习自动生成多样性行为？郝建业老师针对自动驾驶场景进行了具体分析。由于不同社会车辆驾驶风格意图差异很大，造成自动驾驶的实际应用颇为复杂困难。窄道会车场景中基于RL的自适应轨迹调优能力，可以自适应地选择预测时域，动态变更多项式规划模式并调整驾驶风格，兼顾通行效率和行驶安全，具备初步与社会车辆博弈的能力。

其他强化学习落地场景还有华为商城推荐、华为供应链优化、数据中心优化等等。

强化学习的未来挑战，在于强化学习从虚拟场景到物理场景的迁移落地。重点的突破方向，要构建更加真实的物理模型、仿真环境，以减少应用到真实场景的误差。对于难以直接建模分析的场景，例如大型电商网站场景，可以对用户行为进行建模，将模拟的数学方式与真实的物理引擎相结合。从多角度思考入手，做到将强化学习有效地落地实践，促进社会的发展。

================================================

---------------------------------------------------------

本博客是博主个人学习时的一些记录，不保证是为原创，个别文章加入了转载的源地址还有个别文章是汇总网上多份资料所成，在这之中也必有疏漏未加标注者，如有侵权请与博主联系。

【转载】 学习《强化学习的落地实践》有感

【转载】学习《强化学习的落地实践》有感