【第7章-收敛率】待推导或待解析公式征集+答疑专区 #8

youngfish42 · 2020-10-27T16:03:05Z

No description provided.

pppooo332 · 2021-10-12T03:00:08Z

你好，我想问一下，为什么书中的梯度下降算法将T轮迭代的均值作为输出？实际中不是以wT作为最终结果吗？

zhimin-z · 2023-05-28T16:46:38Z

你好，我想问一下，为什么书中的梯度下降算法将T轮迭代的均值作为输出？实际中不是以wT作为最终结果吗？

感谢你的提问 @pppooo332 ，这是因为在凸函数的梯度下降时，我们设定的步长$\eta$是启发式的，因此每次迭代产生的$\omega'$无法保证是局部最优解。考虑到定理7.1的结论，$T$轮迭代的$\omega$均值具有次线性收敛率，而我们却无法证明最后一次迭代值$\omega_T$也具有与之相较的收敛率。总之，返回$\omega$的均值可能会提高计算的代价，但却可以确保稳定的收敛率。该思想在7.3.1和7.3.2中梯度下降算法中亦有体现。

作为对比，在7.2.2中强凸函数的梯度下降算法中，我们只输出了最后一次迭代值$\omega_T$。这是因为在强凸函数的条件下，每次迭代的梯度更新均有闭式解：$\omega_{t+1}=\omega_t-\frac{1}{\gamma}\nabla f(\omega_t)$。每次迭代无需任何启发式算法就可以得到该临域的全局最优解，这也是此算法拥有更快收敛率（线性收敛率）的原因。因而，无需返回历史$\omega$的均值。

datawhalechina deleted a comment from DashanGao May 28, 2023

datawhalechina deleted a comment from zhanhao93 May 28, 2023

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

【第7章-收敛率】待推导或待解析公式征集+答疑专区 #8

【第7章-收敛率】待推导或待解析公式征集+答疑专区 #8

youngfish42 commented Oct 27, 2020

pppooo332 commented Oct 12, 2021

zhimin-z commented May 28, 2023 •

edited

Loading

【第7章-收敛率】待推导或待解析公式征集+答疑专区 #8

【第7章-收敛率】待推导或待解析公式征集+答疑专区 #8

Comments

youngfish42 commented Oct 27, 2020

pppooo332 commented Oct 12, 2021

zhimin-z commented May 28, 2023 • edited Loading

zhimin-z commented May 28, 2023 •

edited

Loading