《强化学习:原理与Python实现 》 —1.7 本章小结

举报
华章计算机 发表于 2019/11/12 20:43:33 2019/11/12
【摘要】 本节书摘来自华章计算机《强化学习:原理与Python实现》 一书中第一章,第1.7节,作者肖智清。

1.7 本章小结

本章介绍了强化学习的概念和应用,学习了强化学习的分类,讲解了强化学习的学习路线和学习资源。我们还学习了强化学习环境库Gym的使用。后续几个章节将介绍强化学习的理论,并且利用Gym库实践相关理论。

本章要点

强化学习是根据奖励信号以改进策略的机器学习方法。策略和奖励是强化学习的核心元素。强化学习试图找到最大化总奖励的策略。

强化学习不是监督学习,因为强化学习的学习过程中没有参考答案;强化学习也不是非监督学习,因为强化学习需要利用奖励信号来学习。

强化学习的应用包括棋牌运动、自动控制、电动游戏。

强化学习任务常用智能体/环境接口建模。学习和决策的部分称为智能体,其他部分称为环境。智能体向环境执行动作,从环境得到奖励和反馈。

按智能体的数量分,强化学习任务可以分为单智能体任务和多智能体任务。按环境是否有明确的终止状态分,强化学习任务可以分为回合制任务和连续性任务。按照时间是否可以离散可以分为离散时间和连续时间。动作空间可以划分为离散动作空间和连续动作空间。环境可以划分为确定性环境和非确定性环境。按照环境是否完全可以观测分,可以分为完全可观测环境和非完全可观测环境。

强化学习算法可以按照学习的策略和决策的行为策略是否相同分为同策学习和异策学习。按照是否需要环境模型,分为有模型学习和无模型学习。按照策略更新时机可以分为回合更新和时序差分更新。更新价值函数的学习方法称为基于价值的学习,直接更新策略的概率分布的学习方法称为基于策略的学习。如果一个强化学习算法用到了深度学习,则它是深度强化学习算法。

Python扩展库Gym是OpenAI推出的免费强化学习实验环境。Gym库的使用方法是:使用env = gym.make(环境名)取出环境,使用env.reset()初始化环境,使用env.step

(动作)执行一步环境,使用env.render()显示环境,使用env.close()关闭环境。


【版权声明】本文为华为云社区用户转载文章,如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。