4 - Automatic Differentiation

Date (online)

9/22

Instructor

Chen

Slides

Video

数值微分（Numerical differentiation）符号微分（Symbolic differentiation）自动微分 automatic differentiation 计算图 Computational graph 前向模式的自动微分 Forward mode automatic differentiation (AD)反向模式的自动微分 Reverse mode automatic differentiation(AD)反向自动微分算法理论反向自动微分算法 Rverse AD algorithm 通过扩展计算图实现反向模式的自动微分张量上的反向模式的自动微分反向自动微分 vs 反向传播参考资料

每种机器学习算法都包括假设函数（模型）、损失函数（策略）、优化方法（算法）这三部分。计算损失函数对假设函数中参数的梯度是最常见的操作之一。

所以，这节课讲的是为什么要做微分，如何做微分，如何实现

数值微分（Numerical differentiation）

按照定义直接计算微分，如下：

其中为只有位置为其余均为的向量。因为是计算处对的偏导，所以要保证除之外的值不变。

但是一般为了更好的数值准确，会采用以下中心差分的方式计算：

因为从泰勒展开可得

相比之下，后者显然有更准确的梯度估计。

缺点：

计算效率低下的缺陷。使用该方法，每计算一个参数的梯度，都需要前向传播两次，假设有个参数，则需要次前向传播。

数值错误。体现在浮点运算的精度受限所导致的舍入误差（rounding error）；以及舍去高阶项导致的截断误差（truncation error）

因此，上述数值微分的方法更多用在梯度检验（大多深度学习框架均有使用），通常以如下形式展开检验：

其中等号左边为自动微分算法求解的梯度，为从单位球上随机选取的向量；等号右边为数值微分计算结果。通过判断等号左右两边数值来检验自动微分计算的梯度。

需要在注意的是：

需要尽可能覆盖所有梯度方向；

等号右边数值微分是同时计算中所有维度的微分，因为微小变量不是单一方向。

符号微分（Symbolic differentiation）

符号微分是除数值微分之外较为常见微分计算方式，在自动微分流行前，经常用该方法手工计算，因为可以保证计算精度。

用和、积、链式法则求梯度:

例如：

相较于数值微分，符号微分更为常见。然而，符号微分存在浪费计算资源的问题（即会有大量的重复计算和保存中间值的内存浪费）。例如上述示例中，计算的微分，时间复杂度为 n(n-2) （n个维度，每个维度的偏导需要计算n-2个乘法）

自动微分 automatic differentiation

自动微分认为，任何数值计算的本质其实是一系列可微分算子的组合。那么，我们就可以假设我们求不出这个函数的导数，但是将该函数拆解成为其他子部分后，子部分可以通过常规的求导方式得到，最终将每个子部分进行组合，就得到了最终的结果。Therefore, 我们对一些常用的函数和表达式用像符号微分那样的求解方式求解，然后带入数值，作为中间结果进行保存，再将一系列保存下来的结果进行组合得到最终的目标值。由于在整个过程中，我们仅仅对一些基本函数或者特定表达式进行微分求解，那么就可以很容易和programming language中的for, if, while等结构进行组合，对用户完全隐藏了整个求解微分的细节。并且，他的计算本质上还是一种图计算，那么就可以对其进行一系列的优化来调优我们的系统。

在介绍自动微分之前，先介绍计算图这种工具。然后介绍前向模式和反向模式这两种自动微分机制。

计算图 Computational graph

一张有向图，节点表示变量，边为变量之间的关系，即运算操作。计算的时候需要按照拓扑排序的顺序来计算。

前向模式的自动微分 Forward mode automatic differentiation (AD)

自动微分不是必须要反向传播，正向也可以计算微分。

首先有，接着不断计算对的导数即可，中间可以通过链式法则进行计算，比如，而之前已经求了的结果，所以只需要计算当前一步的导数即可。

如果用数学语言来描述这个过程，就是需要计算的 Jacobian 矩阵，其中表示由个独立的输入变量映射到个相关的输出变量。对于上面这种特殊的情况，可以把每一次 AutoDiff 的 foward pass 看成是将变量的其中一个分量其他的分量设为的一次推导。所以当时，forward pass 非常高效，因为所有需要计算的偏导只需要进行一次 forward pass 即可。

反向模式的自动微分 Reverse mode automatic differentiation(AD)

左边的前向计算流程是一样的，但是在求导数的过程却是反向的，设定，那么，继续求，通过链式法则只需要计算当前一步的导数即可。

如果用数学语言来描述这个过程，就是需要计算的 Jacobian 矩阵，其中。同样对于上面这种情况，每一次自动微分的 backward pass 可以看成是将因变量的其中一个分量其他分量设为的一次推导。所以当时， reverse mode 非常高效，因为所有需要计算的偏导只需要进行一次 reverse pass 即可。而我们知道在深度学习中 loss 一般都是一个标量，而参数一般都是一个高维张量，所以可以表示绝大多数深度学习模型的情况，通过上面的分析可以看出 reverse mode 效率更高，这也是为什么深度学习都是选择 reverse mode 进行梯度计算的原因，同时，这也是反向传播算法的由来。

注意事项：对于多路径的节点，例如下图被多条路径使用: