这部分大概过一下算法
这部分内容是介绍梯度下降, 在NN中用到最多的是SGD, 为什么不介绍SGD?
SGD, S来自与样本的随机. DL中样本很多, 通常会分Batch, 每个Batch刷的过程就是SGD, 实际上数据量小的时候, SGD和GD一样. 所以数据的Shuffle就很重要.
在约束最优化问题中,常常利用拉格朗日对偶性将原问题转化为对偶问题,通过求解对偶问题得到原始问题的解。
为什么要这么做在CH07中有说明这样做的优点,一是对偶问题往往更容易求解;二是自然引入核函数,进而推广到非线性分类问题