学习《强化学习的落地实践》有感
今天观看了郝建业老师的《强化学习落地实践》的报告直播,颇有收获。
首先,郝建业老师对强化学习的基本知识、发展历史进行了讲解,展示了深度学习与强化学习的深层差异。
随后,老师讲解了目前的深度强化学习存在的问题:学习效率底下,所需资源庞大。相比之下,人类不是从头学习,而是从过往的知识中获取经验辅助学习。由此提出,将旧任务进行迁移到新任务、将旧任务的参数移植到新任务作为初始策略,让深度学习通过提取过往经验来加速学习进度。
同时,获取准确的监督信号十分重要。可以使用监督或者半监督的方法来修正监督信号,加速学习进度。
1、基于邻域认知一致性的多智体强化学习,对每个智能体进行建模,同时又保证相对隔离,确保学习效率。
2、多智体动作语义网络。对每个智能体的Q网络进行优化,两种Q值进行融合,对其监督信号进行修正。
3、多智能体强化学习-网络大脑。实际的场景应用有多WiFi场景。多个wifi会产生信号干扰,将问题建模成多智体的问题并进行针对性优化,保证速度的同时减少干扰,提高整个系统的效率。同理还有4G基站的优化,提高单个基站的强度和信噪处理能力比,优化多基站的协调配合。此优化还能应用于5G场景。
如何通过学习自动生成多样性行为?郝建业老师针对自动驾驶场景进行了具体分析。由于不同社会车辆驾驶风格意图差异很大,造成自动驾驶的实际应用颇为复杂困难。窄道会车场景中基于RL的自适应轨迹调优能力,可以自适应地选择预测时域,动态变更多项式规划模式并调整驾驶风格,兼顾通行效率和行驶安全,具备初步与社会车辆博弈的能力。
其他强化学习落地场景还有华为商城推荐、华为供应链优化、数据中心优化等等。
强化学习的未来挑战,在于强化学习从虚拟场景到物理场景的迁移落地。重点的突破方向,要构建更加真实的物理模型、仿真环境,以减少应用到真实场景的误差。对于难以直接建模分析的场景,例如大型电商网站场景,可以对用户行为进行建模,将模拟的数学方式与真实的物理引擎相结合。从多角度思考入手,做到将强化学习有效地落地实践,促进社会的发展。
- 点赞
- 收藏
- 关注作者
评论(0)