Skip to content

Latest commit

 

History

History
85 lines (73 loc) · 3.72 KB

C2W3_withAnswers.md

File metadata and controls

85 lines (73 loc) · 3.72 KB

C2W3 超参数调整、批量标准化、编程框架

测验


1、如果在大量的超参数中搜索最佳的参数值,那么应该尝试在网格中搜索而不是使用随机值,以便更系统的搜索,而不是依靠运气,请问这句话是正确的吗?

  • 正确
  • 错误

2、每个超参数如果设置得不好,都会对训练产生巨大的负面影响,因此所有的超参数对于调优都同样重要,请问这是正确的吗?

  • 正确
  • 错误
    如学习率,会比其他参数更重要。

3、在超参数搜索过程中,你尝试只照顾一个模型(使用熊猫策略)还是一起训练大量的模型(鱼子酱策略)在很大程度上取决于:

  • 是否使用批量(batch)或小批量优化(mini-batch optimization)
  • 神经网络中局部最小值(鞍点)的存在性
  • 你能获得的计算力
  • 需要调整的超参数的数量

4、如果您认为β(动量超参数)介于0.9和0.99之间,那么推荐采用以下哪一种方法来对β值进行取样?

  • A.

      r = np.random.rand()
      beta = r*0.09 + 0.9
    
  • B.

      r = np.random.rand()
      beta = 1-10**(- r - 1)
    
        r在0-1之间
        当r=0时,β=0.9; 当r=1时,β=0.99。
  • C.

      r = np.random.rand()
      beta = 1-10**(- r + 1)
    
  • D.

      r = np.random.rand()
      beta = r*0.9 + 0.09
    

5、找到好的超参数的值是非常耗时的,所以通常情况下你应该在项目开始时做一次,并尝试找到非常好的超参数,这样你就不必再次重新调整它们。请问这正确吗?

  • 正确
  • 错误

6、在视频中介绍的批量标准化中,如果将其应用于神经网络的第l层,那么需要标准化什么?

  • b[l]
  • a[l]
  • z[l]
  • W[l]

7、在标准化公式中,为什么要使用epsilon(ϵ)?

  • 加快收敛速度
  • 避免除零操作
  • 获得更精确的标准化
  • 以防μ太小

8、批处理标准化中关于 γ 和 β 的以下哪些陈述是正确的?

  • 每层有一个γ∈R的全局变量和一个β∈R的全局变量,并适用于该层中的所有隐藏单元。
  • 它们可以在Adam、带有动量的梯度下降 或 RMSprop 使中用,而不仅仅是用梯度下降来学习。
  • 最优值为γ=√(σ^2+ε),β=μ。
  • β和γ是算法的超参数,我们通过随机抽样调整。
  • 它们设定给定层的线性变量 z[l] 的均值和方差。

9、训练具有BN(批量标准化)的神经网络之后,测试时间,在新样本上评估神经网络时,你应该:

  • 在训练期间,通过使用μ和σ^2的指数加权平均值估计mini-batches的情况,来执行所需的标准化。
  • 跳过使用μ和σ^2的标准化步骤,因为单个测试样本无法标准化。
  • 使用最新的小批量的μ和σ^2值, 来执行所需的标准化。
  • 如果在256个示例的小批量上实现了批处理标准化,那么在一个测试样本上进行预测时,需要将该样本复制256次,使起拥有与训练时相同大小的小批量。

10、关于深度学习编程框架的这些陈述中,哪一个是正确的?

  • 通过编程框架,您可以用比低级语言(如Python)更少的代码来编写深度学习算法。
  • 即使一个项目目前是开源的,项目的良好管理有助于确保它即使在长期内仍然保持开放,而不是仅仅为了一个公司而关闭或修改。
  • 深度学习编程框架的运行需要基于云的机器。