第四章

动态规划（Dynamic Programming，DP）是一类优化算法，在给定一个用马尔可夫决策（MDP）描述的完备环境模型的情况下，其可以计算最优的策略。对于强化学习问题，传统的DP算法的作用有限。其原因有二：一是完备的环境模型只是一个假设；二是它的计算复杂度极高。但是，它依然是一个非常重要的理论。对于后面章节介绍的方法，DP提供了一个必要的基础。事实上，所有其它方法都是对DP的一种近似，只不过降低了计算复杂度以及减弱了对环境模型完备性的假设。