update errata

datawhalechina · Jun 18, 2024 · b44a51a · b44a51a
1 parent b6f7133
commit b44a51a
Showing 1 changed file with 1 addition and 0 deletions.
diff --git a/docs/errata.md b/docs/errata.md
@@ -5,6 +5,7 @@
 ## 第1版第9次印刷（2024.01）
 * 17页，第一段倒数第4行：有 Q 学习（Q-learning）、Sarsa 等 → 有 Q 学习（Q-learning）、Sarsa 、深度Q网络（deep Q-network，DQN）等
 * 17页，第一段倒数第3行：价值评估 → 价值函数
+* 25页，第一段倒数第2行：游戏就结束了，我们就输了。 → 游戏就结束了。
 * 135页，第一段1~2行：我们来看一下 **PPO1** 算法，即近端策略优化惩罚算法。它先初始化一个策略的参数 $\theta^{0}$。在每一个迭代中 → 我们先看一下近端策略优化惩罚算法，其先初始化一个策略的参数 $\theta^{0}$，在每一个迭代中
 * 135页，第二段第2行：这里会遇到一个问题就，即 $\beta$ 要设置为多少？→ 这里会有一个问题：$\beta$ 要设置为多少。
 * 135页，倒数第一段：如果我们觉得计算 KL 散度很复杂，那么还有一个 PPO2 算法，PPO2 即近端策略优化裁剪算法。→ 如果我们觉得计算 KL 散度很复杂，可以使用近端策略优化裁剪算法。