- 微信
- 微博
  
  分享文章到微博
- 复制链接
  
  复制链接到剪贴板

学习《强化学习的落地实践》有感

Thund1r 发表于 2020/03/13 18:05:39 2020/03/13

【摘要】强化学习被认为是实现通用人工智能的重要技术途径，近几年引起学术界和工业界的极大关注和投入。《强化学习的落地实践》围绕强化学习的发展历史，介绍强化学习背景，强化学习的最新研究进展，以及强化学习在业界的落地实践，并介绍该领域面临的挑战性问题和未来发展方向。

今天观看了郝建业老师的《强化学习落地实践》的报告直播，颇有收获。

首先，郝建业老师对强化学习的基本知识、发展历史进行了讲解，展示了深度学习与强化学习的深层差异。

随后，老师讲解了目前的深度强化学习存在的问题：学习效率底下，所需资源庞大。相比之下，人类不是从头学习，而是从过往的知识中获取经验辅助学习。由此提出，将旧任务进行迁移到新任务、将旧任务的参数移植到新任务作为初始策略，让深度学习通过提取过往经验来加速学习进度。

同时，获取准确的监督信号十分重要。可以使用监督或者半监督的方法来修正监督信号，加速学习进度。

1、基于邻域认知一致性的多智体强化学习，对每个智能体进行建模，同时又保证相对隔离，确保学习效率。

2、多智体动作语义网络。对每个智能体的Q网络进行优化，两种Q值进行融合，对其监督信号进行修正。

3、多智能体强化学习-网络大脑。实际的场景应用有多WiFi场景。多个wifi会产生信号干扰，将问题建模成多智体的问题并进行针对性优化，保证速度的同时减少干扰，提高整个系统的效率。同理还有4G基站的优化，提高单个基站的强度和信噪处理能力比，优化多基站的协调配合。此优化还能应用于5G场景。

如何通过学习自动生成多样性行为？郝建业老师针对自动驾驶场景进行了具体分析。由于不同社会车辆驾驶风格意图差异很大，造成自动驾驶的实际应用颇为复杂困难。窄道会车场景中基于RL的自适应轨迹调优能力，可以自适应地选择预测时域，动态变更多项式规划模式并调整驾驶风格，兼顾通行效率和行驶安全，具备初步与社会车辆博弈的能力。

其他强化学习落地场景还有华为商城推荐、华为供应链优化、数据中心优化等等。

强化学习的未来挑战，在于强化学习从虚拟场景到物理场景的迁移落地。重点的突破方向，要构建更加真实的物理模型、仿真环境，以减少应用到真实场景的误差。对于难以直接建模分析的场景，例如大型电商网站场景，可以对用户行为进行建模，将模拟的数学方式与真实的物理引擎相结合。从多角度思考入手，做到将强化学习有效地落地实践，促进社会的发展。

【声明】本内容来自华为云开发者社区博主，不代表华为云及华为云开发者社区的观点和立场。转载时必须标注文章的来源（华为云社区）、文章链接、文章作者等基本信息，否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容，欢迎发送邮件进行举报，并提供相关证据，一经查实，本社区将立刻删除涉嫌侵权内容，举报邮箱： cloudbbs@huaweicloud.com

点赞
收藏
关注作者

0/1000

抱歉，系统识别当前为高风险访问，暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称，即可参与社区互动！

*长度不超过10个汉字或20个英文字符，设置后3个月内不可修改。

确认取消

加入云驻计划，成为创作者

华为云周边好礼
免费体验产品
特殊身份标识
线下官方门票
内部专家零距离
与10000+优质创作者共同成长

立即加入

学习《强化学习的落地实践》有感

全部回复

设置昵称

关于作者

目录

加入云驻计划，成为创作者

学习《强化学习的落地实践》有感

全部回复

设置昵称

关于作者

目录

热门推荐查看更多

相关文章

加入云驻计划，成为创作者

相关产品