Skip to content

Latest commit

 

History

History
9 lines (5 loc) · 726 Bytes

README.md

File metadata and controls

9 lines (5 loc) · 726 Bytes

第四章

动态规划(Dynamic Programming,DP)是一类优化算法,在给定一个用马尔可夫决策(MDP)描述的完备环境模型的情况下,其可以计算最优的策略。对于强化学习问题,传统的DP算法的作用有限。其原因有二:一是完备的环境模型只是一个假设;二是它的计算复杂度极高。但是,它依然是一个非常重要的理论。对于后面章节介绍的方法,DP提供了一个必要的基础。事实上,所有其它方法都是对DP的一种近似,只不过降低了计算复杂度以及减弱了对环境模型完备性的假设。

本节目录

  1. 习题解答
  2. 代码案例