3、第八章 深度模型中的优化
8.1 学习和优化有什么不同 ……………………..228
- 8.1.1 经验风险最小化 …………………….229
- 8.1.2 替代损失函数和提前终止 ………………..230
- 8.1.3 批算法和minibatch算法…………………230
8.2 神经网络的优化挑战 ………………………234
- 8.2.1 病态…………………………..234
- 8.2.2 局部极小值……………………….235
- 8.2.3 高原,鞍点和其他平坦区域 ……………….237
- 8.2.4 悬崖和梯度爆炸 …………………….239
- 8.2.5 长期依赖 ………………………..240
- 8.2.6 非精确梯度……………………….241
- 8.2.7 局部和全局结构间的弱对应 ……………….241
DRAFT
- ……………………….254
- 8.5.2 RMSProp………………………..254
- 8.5.3 Adam………………………….255
- 8.5.4 选择正确的优化算法…………………..256
二阶近似方法 ………………………….257
- 8.6.1 牛顿方法 ………………………..258
- 8.6.2 共轭梯度 ………………………..259
- 8.6.3 BFGS………………………….262
优化技巧和元算法 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 263
- 8.7.1 batchnormalization …………………..263
- 8.7.2 坐标下降 ………………………..266
- 8.7.3 Polyak平均……………………….266
- 8.7.4 监督预训练……………………….267
- 8.7.5 设计有助于优化的模型………………….269
- 8.7.6 连续方法和课程学习…………………..270
卷积神经网络 273 卷积运算…………………………….274 动机 ………………………………276 池化 ………………………………282 卷积与池化作为一种无限强的先验………………..287 基本卷积函数的变体 ………………………288
本博客所有文章除特别声明外,均采用 CC BY-NC-SA 4.0 许可协议。转载请注明来自 Ruiqy~!
评论