8.1 学习和优化有什么不同 ……………………..228

  1. 8.1.1 经验风险最小化 …………………….229
  2. 8.1.2 替代损失函数和提前终止 ………………..230
  3. 8.1.3 批算法和minibatch算法…………………230

8.2 神经网络的优化挑战 ………………………234

  1. 8.2.1 病态…………………………..234
  2. 8.2.2 局部极小值……………………….235
  3. 8.2.3 高原,鞍点和其他平坦区域 ……………….237
  1. 8.2.4 悬崖和梯度爆炸 …………………….239
  2. 8.2.5 长期依赖 ………………………..240
  3. 8.2.6 非精确梯度……………………….241
  4. 8.2.7 局部和全局结构间的弱对应 ……………….241

DRAFT

  1. ……………………….254
  2. 8.5.2 RMSProp………………………..254
  3. 8.5.3 Adam………………………….255
  4. 8.5.4 选择正确的优化算法…………………..256

二阶近似方法 ………………………….257

  1. 8.6.1 牛顿方法 ………………………..258
  2. 8.6.2 共轭梯度 ………………………..259
  3. 8.6.3 BFGS………………………….262

优化技巧和元算法 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 263

  1. 8.7.1 batchnormalization …………………..263
  2. 8.7.2 坐标下降 ………………………..266
  3. 8.7.3 Polyak平均……………………….266
  4. 8.7.4 监督预训练……………………….267
  5. 8.7.5 设计有助于优化的模型………………….269
  6. 8.7.6 连续方法和课程学习…………………..270

卷积神经网络 273 卷积运算…………………………….274 动机 ………………………………276 池化 ………………………………282 卷积与池化作为一种无限强的先验………………..287 基本卷积函数的变体 ………………………288