《强化学习:原理与Python实现 》 —3.5.3 有模型价值迭代求解
        【摘要】 本节书摘来自华章计算机《强化学习:原理与Python实现》 一书中第三章,第3.5.3节,作者肖智清。
    
    
    
    3.5.3 有模型价值迭代求解
现在我们用价值迭代算法求解冰面滑行问题的最优策略。代码清单3-9的iterate_value()函数实现了价值迭代算法。这个函数使用参数tolerant来控制价值迭代的精度。代码清单3-10在冰面滑行问题上测试了iterate_value()函数。
代码清单3-9 价值迭代的实现


代码清单3-10 利用价值迭代算法求解最优策略

策略迭代和价值迭代得到的最优价值函数和最优策略应该是一致的。最优状态价值函数为:
 
最优策略为:

        【版权声明】本文为华为云社区用户转载文章,如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱:
            cloudbbs@huaweicloud.com
        
        
        
        
        
        
        - 点赞
 - 收藏
 - 关注作者
 
            
           
评论(0)