实例:学习XOR ………………………..142 基于梯度的学习 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 147

6.3

6.4

6.5

隐藏单元 . .

  1. 6.3.1 整流线性单元及其扩展 . . . . . . . . . . . . . . . . . . . . . . 161
  2. 6.3.2 logisticsigmoid与双曲正切函数 …………….163
  3. 6.3.3 其他隐藏单元 . . . . . . . . . . . . . . . . . . . . . . . . . . . 163

结构设计 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 165

  1. 6.4.1 通用近似性质和深度 . . . . . . . . . . . . . . . . . . . . . . . 165
  2. 6.4.2 其他结构上的考虑 ……………………168

反向传播和其他的微分算法 . . . . . . . . . . . . . . . . . . . . . . . . 170

  1. 6.5.1 计算图………………………….170
  2. 6.5.2 微积分中的链式法则…………………..171
  3. 6.5.3 递归地使用链式法则来实现BP……………..173
  4. 6.5.4 全连接MLP中BP的计算 ……………….175
  5. 6.5.5 符号到符号的导数 ……………………176
  6. 6.5.6 一般化的BP………………………179
  7. 6.5.7 实例:用于MLP训练的BP ………………183
  8. 6.5.8 复杂化………………………….184

6.2.1

6.2.2

代价函数 ………………………..148 6.2.1.1 用最大似然学习条件分布 …………….149 6.2.1.2 学习条件统计量………………….150

输出单元 ………………………..151

6.2.2.1 6.2.2.2 6.2.2.3 6.2.2.4

用于高斯输出分布的线性单元…………..151 用于Bernoulli输出分布的sigmoid单元 . . . . . . . .152 用于 Multinoulli 输出分布的 softmax 单元 . . . . . . . 154 其他的输出类型………………….156

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 160

6.5.9 深度学习界以外的微分 . . . . . . . . . . . . . . . . . . . . . . 185 6.5.10 高阶微分 ………………………..187 历史小记 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 187