第四章 动态规划(Dynamic Programming,DP)是一类优化算法,在给定一个用马尔可夫决策(MDP)描述的完备环境模型的情况下,其可以计算最优的策略。对于强化学习问题,传统的DP算法的作用有限。其原因有二:一是完备的环境模型只是一个假设;二是它的计算复杂度极高。但是,它依然是一个非常重要的理论。对于后面章节介绍的方法,DP提供了一个必要的基础。事实上,所有其它方法都是对DP的一种近似,只不过降低了计算复杂度以及减弱了对环境模型完备性的假设。 本节目录 习题解答 代码案例