- 微信
- 微博
  
  分享文章到微博
- 复制链接
  
  复制链接到剪贴板

Reinforcement Learning :An Introduction 【学习笔记 1】

东方曜发表于 2020/06/30 11:22:27 2020/06/30

【摘要】本将分系列介绍Reinforcement Learning : An Introduction这本书，【学习笔记 1】对该书的章节2，章节3进行总结.

本文对 Reinforcement Learning Introduction 这本书的第2、3章节进行介绍、总结。第二章主要介绍了什么是multi-armed bandits，以及相对应的几种解决方法包括：action-value method, gradient bandit algorithm, associative search等。第三章主要介绍了Finite Markov Decision Process（有限马尔科夫决策过程）包括其中关键的定义：Environment（环境）、Agent（智能体）、States（状态）、Actions（动作）、Goals（目标）、Rewards（回馈）、Policies（策略）、Value Functions（值函数）等，后续简单介绍了一种求解的方法：Dynamic Programming（动态规划）

Reinforcement Learning Introduction

Tabular Solution Method

exact solution: 通常能够找到最优值函数和最优策略；

approximation solution: 通常只能大概的推测解，但是优点就是在解决大型问题的时候非常高效；

本章第一部分讲的是RL问题中比较简单的一种形式：只涉及一种state，叫做bandit problems。第二部分讲的是问题的一般形式即 finite Markov Decision Process--MDP, 他的主要思想包括Bellman equation（贝尔曼等式）和 value function（值函数）。

后三章主要讲解了解决finite Markov probelm问题的三类方法：dynamic programming,Monte Carlo Method（蒙特卡罗方法），temporal-difference learning.每种方法都有自己的特点：DP是一个发展的比较好的数学方法，但是要求一个完整和精确的环境模型；MC方法不要求模型而且思想简单，但却不适合一步一步增量计算的方式。最终第三种方法TD，不要求模型而且是增量计算的方式，但是会分析起来会更加复杂。

剩余的两章主要讲的是如何结合这三个方法的特性来获得更好的方法。

Chapter2 Multi-armed Bandits

区分RL与其他学习学习方法的方式是：他使用训练信息来evaluate评估action，而不是通过给定正确的action来指引。纯评估性的反馈：指出一个action好的程度，而不是指出这个action是不是最好或者是最差；纯指引性的反馈：指出正确的应该被采取的action，完全独立于它本身采取的action。

【声明】本内容来自华为云开发者社区博主，不代表华为云及华为云开发者社区的观点和立场。转载时必须标注文章的来源（华为云社区）、文章链接、文章作者等基本信息，否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容，欢迎发送邮件进行举报，并提供相关证据，一经查实，本社区将立刻删除涉嫌侵权内容，举报邮箱： cloudbbs@huaweicloud.com

点赞
收藏
关注作者

0/1000

抱歉，系统识别当前为高风险访问，暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称，即可参与社区互动！

*长度不超过10个汉字或20个英文字符，设置后3个月内不可修改。

确认取消

加入云驻计划，成为创作者

华为云周边好礼
免费体验产品
特殊身份标识
线下官方门票
内部专家零距离
与10000+优质创作者共同成长

立即加入

Reinforcement Learning :An Introduction 【学习笔记 1】

Reinforcement Learning Introduction

Tabular Solution Method

Chapter2 Multi-armed Bandits

全部回复

设置昵称

关于作者

目录

加入云驻计划，成为创作者

Reinforcement Learning :An Introduction 【学习笔记 1】

Reinforcement Learning Introduction

Tabular Solution Method

Chapter2 Multi-armed Bandits

全部回复

设置昵称

关于作者

目录

热门推荐查看更多

相关文章

加入云驻计划，成为创作者

相关产品