Reinforcement Learning :An Introduction 【学习笔记 1】

举报
东方曜 发表于 2020/06/30 11:22:27 2020/06/30
【摘要】 本将分系列介绍Reinforcement Learning : An Introduction这本书,【学习笔记 1】对该书的章节2,章节3进行总结.


本文对 Reinforcement Learning Introduction 这本书的第2、3章节进行介绍、总结。第二章主要介绍了什么是multi-armed bandits,以及相对应的几种解决方法包括:action-value method, gradient bandit algorithm, associative search等。 第三章主要介绍了Finite Markov Decision Process(有限马尔科夫决策过程)包括其中关键的定义:Environment(环境)、Agent(智能体)、States(状态)、Actions(动作)、Goals(目标)、Rewards(回馈)、Policies(策略)、Value Functions(值函数)等,后续简单介绍了一种求解的方法:Dynamic Programming(动态规划)

Reinforcement Learning Introduction

Tabular Solution Method

exact solution: 通常能够找到最优值函数和最优策略;

approximation solution: 通常只能大概的推测解,但是优点就是在解决大型问题的时候非常高效;

本章第一部分讲的是RL问题中比较简单的一种形式:只涉及一种state,叫做bandit problems。第二部分讲的是问题的一般形式即 finite Markov Decision Process--MDP, 他的主要思想包括Bellman equation(贝尔曼等式)和 value function(值函数)。

后三章主要讲解了解决finite Markov probelm问题的三类方法:dynamic programming,Monte Carlo Method(蒙特卡罗方法),temporal-difference learning.每种方法都有自己的特点:DP是一个发展的比较好的数学方法,但是要求一个完整和精确的环境模型;MC方法不要求模型而且思想简单,但却不适合一步一步增量计算的方式。最终第三种方法TD,不要求模型而且是增量计算的方式,但是会分析起来会更加复杂。

剩余的两章主要讲的是如何结合这三个方法的特性来获得更好的方法。

Chapter2 Multi-armed Bandits

区分RL与其他学习学习方法的方式是:他使用训练信息来evaluate评估action,而不是通过给定正确的action来指引。纯评估性的反馈:指出一个action好的程度,而不是指出这个action是不是最好或者是最差;纯指引性的反馈:指出正确的应该被采取的action,完全独立于它本身采取的action。


【版权声明】本文为华为云社区用户原创内容,转载时必须标注文章的来源(华为云社区)、文章链接、文章作者等基本信息, 否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。