继《蘑菇书》之后,我们对于想要更多地深入了解强化学习实践的读者准备了一套全新的教程,全书主要基于笔者“不那么丰富可是也有一点咯”的实践经验,帮助读者快速入门强化学习的代码实践,并辅以一套开源代码框架JoyRL
,便于读者适应业界应用研究风格的代码。
与《蘑菇书》不同,本教程侧重对强化学习核心理论的提点和串联,以及对于强化学习代码实践的指导,尽可能还原原论文的主要思想,而不是对于理论的详细讲解。因此,《蘑菇书》适合适合细嚼慢咽的读者,而本教程则适合具有一定编程基础且希望快速进入实践应用的读者。
JoyRL旨在建立一套帮助初学者或交叉学科研究者快速入门强化学习的代码生态。它以PiP
包的形式开发开源框架,英文注释,会比离线版更加集成,更加高效,并且会去掉一些实际并不常用的基础算法,例如Q-learning
等等,适合需要大规模环境应用的读者进阶使用。
此外,本书中的演示代码会在以Jupyter Notebook
的形式呈现,具体在notebooks文件夹中。
地址:https://johnjim0816.com/joyrl-book/
章节 | 关键内容 |
---|---|
第一章 绪论 | |
第二章 马尔可夫决策过程 | 马尔可夫决策过程、状态转移矩阵 |
第三章 动态规划 | 贝尔曼方程、策略迭代、价值迭代 |
第四章 免模型预测 | 蒙特卡洛、时序差分 |
第五章 免模型控制 | Q-learning 算法、Sarsa 算法 |
第六章 深度学习基础 | 神经网络、梯度下降 |
第七章 DQN算法 | DQN 算法、目标网络、经验回放 |
第八章 DQN算法进阶 | Double DQN、Dueling DQN、PER DQN |
第九章 策略梯度 | 随机性策略、REINFORCE |
第十章 Actor-Critic算法 | A2C、A3C |
第十一章 DDPG算法 | DDPG、TD3 |
第十二章 PPO算法 | 重要性采样、PPO |
第十三章 SAC算法 | 最大熵强化学习、Soft Q、SAC |
练习题解答 |
John Jim 教程设计与算法实战 |
Qi Wang 教程设计 |
Yiyuan Yang 教程设计 |
- 协助编辑与校对。@AzulaFire
扫描下方二维码关注公众号:Datawhale,回复关键词“强化学习”,即可加入“EasyRL & JoyRL 读者交流群”