学习《强化学习的落地实践》有感

举报
Thund1r 发表于 2020/03/13 18:05:39 2020/03/13
【摘要】 强化学习被认为是实现通用人工智能的重要技术途径,近几年引起学术界和工业界的极大关注和投入。《强化学习的落地实践》围绕强化学习的发展历史,介绍强化学习背景,强化学习的最新研究进展,以及强化学习在业界的落地实践,并介绍该领域面临的挑战性问题和未来发展方向。

今天观看了郝建业老师的《强化学习落地实践》的报告直播,颇有收获。

首先,郝建业老师对强化学习的基本知识、发展历史进行了讲解,展示了深度学习与强化学习的深层差异。

 image.png

随后,老师讲解了目前的深度强化学习存在的问题:学习效率底下,所需资源庞大。相比之下,人类不是从头学习,而是从过往的知识中获取经验辅助学习。由此提出,将旧任务进行迁移到新任务、将旧任务的参数移植到新任务作为初始策略,让深度学习通过提取过往经验来加速学习进度。

image.png

同时,获取准确的监督信号十分重要。可以使用监督或者半监督的方法来修正监督信号,加速学习进度。

1、基于邻域认知一致性的多智体强化学习,对每个智能体进行建模,同时又保证相对隔离,确保学习效率。

image.png

2、多智体动作语义网络。对每个智能体的Q网络进行优化,两种Q值进行融合,对其监督信号进行修正。

image.png

3、多智能体强化学习-网络大脑。实际的场景应用有多WiFi场景。多个wifi会产生信号干扰,将问题建模成多智体的问题并进行针对性优化,保证速度的同时减少干扰,提高整个系统的效率。同理还有4G基站的优化,提高单个基站的强度和信噪处理能力比,优化多基站的协调配合。此优化还能应用于5G场景。

 image.png

如何通过学习自动生成多样性行为?郝建业老师针对自动驾驶场景进行了具体分析。由于不同社会车辆驾驶风格意图差异很大,造成自动驾驶的实际应用颇为复杂困难。窄道会车场景中基于RL的自适应轨迹调优能力,可以自适应地选择预测时域,动态变更多项式规划模式并调整驾驶风格,兼顾通行效率和行驶安全,具备初步与社会车辆博弈的能力。

 image.png

其他强化学习落地场景还有华为商城推荐、华为供应链优化、数据中心优化等等。

 image.png

强化学习的未来挑战,在于强化学习从虚拟场景到物理场景的迁移落地。重点的突破方向,要构建更加真实的物理模型、仿真环境,以减少应用到真实场景的误差。对于难以直接建模分析的场景,例如大型电商网站场景,可以对用户行为进行建模,将模拟的数学方式与真实的物理引擎相结合。从角度思考入手,做到将强化学习有效地落地实践,促进社会的发展。

image.png

【版权声明】本文为华为云社区用户原创内容,转载时必须标注文章的来源(华为云社区)、文章链接、文章作者等基本信息, 否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。