原文: https://machinelearningmastery.com/exploding-gradients-in-neural-networks/
梯度爆炸是一个问题,其中大的误差梯度累积并导致在训练期间对神经网络模型权重的非常大的更新。
这会导致您的模型不稳定,无法从您的训练数据中学习。
在这篇文章中,您将发现深层人工神经网络梯度爆炸的问题。
完成这篇文章后,你会知道:
- 爆炸的梯度是什么以及它们在训练过程中引起的问题。
- 如何知道您的网络模型是否有梯度爆炸。
- 如何解决网络中的梯度爆炸问题。
让我们开始吧。
- 更新 Oct / 2018 :删除了 ReLU 作为解决方案的提及。
回顾神经网络中梯度爆炸的温和介绍 Taro Taylor 的照片,保留一些权利。
误差梯度是在训练神经网络期间计算的方向和幅度,该神经网络用于以正确的方向和正确的量更新网络权重。
在深度网络或循环神经网络中,误差梯度可能在更新期间累积并导致非常大的梯度。这反过来又导致网络权重的大量更新,进而导致网络不稳定。在极端情况下,权重值可能会变得很大,以至于溢出并导致 NaN 值。
通过重复地将梯度乘以具有大于 1.0 的值的网络层,爆炸通过指数增长发生。
在深层多层 Perceptron 网络中,梯度爆炸可能导致网络不稳定,最多无法从训练数据中学习,最坏的情况是导致无法再更新的 NaN 权重值。
爆炸性的梯度会使学习变得不稳定。
- 第 282 页,深度学习,2016 年。
在循环神经网络中,爆炸性梯度可能导致不稳定的网络无法从训练数据中学习,并且最多是无法通过长输入数据序列学习的网络。
......梯度爆炸问题是指训练期间梯度范数的大幅增加。这些事件是由于长期成分的爆炸造成的
- 关于训练复发神经网络的难度,2013。
有一些微妙的迹象表明您在网络训练期间可能会受到爆炸性梯度的影响,例如:
- 该模型无法获得您的训练数据(例如损失不佳)。
- 该模型不稳定,导致从更新到更新的损失发生很大变化。
- 在训练期间模型损失归 NaN 所有。
如果你有这些类型的问题,你可以深入挖掘,看看你是否有梯度爆炸的问题。
有一些不太微妙的迹象可以用来确认你有爆炸的梯度。
- 在训练期间,模型权重很快变得非常大。
- 模型权重在训练期间达到 NaN 值。
- 在训练期间,每个节点和层的误差梯度值始终高于 1.0。
解决梯度爆炸的方法很多;本节列出了一些您可以使用的最佳实践方法。
在深度神经网络中,可以通过重新设计网络以减少层数来解决梯度爆炸问题。
在训练网络时使用较小的批量大小也可能有一些好处。
在循环神经网络中,在训练期间通过较少的先前时间步骤进行更新,称为通过时间截断反向传播,可以减少梯度爆炸问题。
在循环神经网络中,考虑到这种类型网络的训练中固有的不稳定性,例如,可以发生梯度爆炸。通过反向传播到时间,基本上将循环网络转换为深层多层感知机神经网络。
通过使用长短期记忆(LSTM)记忆单元和可能相关的门控型神经元结构,可以减少梯度爆炸。
采用 LSTM 存储器单元是用于序列预测的循环神经网络的新的最佳实践。
在具有大批量大小和具有非常长输入序列长度的 LSTM 的非常深的多层感知机网络中仍然可能发生梯度爆炸。
如果仍然出现梯度爆炸,您可以在网络训练期间检查并限制梯度的大小。
这称为梯度剪裁。
处理梯度爆炸有一个简单但非常有效的解决方案:如果它们的范数超过给定阈值,则剪切梯度。
- 第 5.2.4 节,消失和梯度爆炸,自然语言处理中的神经网络方法,2017。
具体地,如果误差梯度超过阈值,则针对阈值检查误差梯度的值并将其剪切或设置为该阈值。
在某种程度上,可以通过梯度限幅(在执行梯度下降步骤之前对梯度的值进行阈值处理)来减轻梯度爆炸问题。
- 第 294 页,深度学习,2016 年。
在 Keras 深度学习库中,您可以通过在训练之前在优化器上设置clipnorm
或clipvalue
参数来使用梯度剪辑。
好的默认值是 clipnorm = 1.0 和 clipvalue = 0.5 。
- Keras API 中优化器的使用
另一种方法,如果仍然出现梯度爆炸,则检查网络权重的大小,并对网络损失函数应用较大权重值的惩罚。
这被称为权重正则化,并且通常可以使用 L1(绝对权重)或 L2(平方权重)惩罚。
对复发权重使用 L1 或 L2 惩罚可以帮助梯度爆炸
— On the difficulty of training recurrent neural networks, 2013.
在 Keras 深度学习库中,您可以通过在层上设置kernel_regularizer
参数并使用L1
或L2
正则化器来使用权重正则化。
- Keras API 中正则化器的使用
如果您希望深入了解,本节将提供有关该主题的更多资源。
- 深度学习,2016 年。
- 自然语言处理中的神经网络方法,2017。
- 关于训练复发神经网络的难度,2013。
- 学习与梯度下降的长期依赖关系很困难,1994。
- 了解梯度爆炸问题,2012。
在这篇文章中,您发现了在训练深度神经网络模型时梯度爆炸的问题。
具体来说,你学到了:
- 爆炸的梯度是什么以及它们在训练过程中引起的问题。
- 如何知道您的网络模型是否有梯度爆炸。
- 如何解决网络中的梯度爆炸问题。
你有任何问题吗? 在下面的评论中提出您的问题,我会尽力回答。