从残差网络到微分方程
残差网络是一类特殊的卷积网络,它通过残差连接而解决了梯度反传问题,即当神经网络层级非常深时,梯度仍然能有效传回输入端 。下图为原论文中残差模块的结构,残差块的输出结合了输入信息与内部卷积运算的输出信息,这种残差连接或恒等映射表示深层模型至少不能低于浅层网络的准确度 。这样的残差模块堆叠几十上百个就是非常深的残差神经网络 。

文章插图
如果我们将上面的残差模块更加形式化地表示为以下方程:

文章插图
其中 h_t 是第 t 层隐藏单元的输出值,f 为通过θ_t 参数化的神经网络 。该方程式表示上图的整个残差模块,如果我们其改写为残差的形式,即 h_t+1 - h_t = f(h_t, θ_t ) 。那么我们可以看到神经网络 f 参数化的是隐藏层之间的残差,f 同样不是直接参数化隐藏层 。
【教你如何理解并使用常微分方程 常微分方程】 ResNet 假设层级的离散的,第 t 层到第 t+1 层之间是无定义的 。那么如果这中间是有定义的呢?残差项 h_t0 - h_t1 是不是就应该非常小,以至于接近无穷小?这里我们少考虑了分母,即残差项应该表示为 (h_t+1 - h_t )/1,分母的 1 表示两个离散的层级之间相差 1 。所以再一次考虑层级间有定义,我们会发现残差项最终会收敛到隐藏层对 t 的导数,而神经网络实际上参数化的就是这个导数 。
所以若我们在层级间加入更多的层,且最终趋向于添加了无穷层时,神经网络就连续化了 。可以说残差网络其实就是连续变换的欧拉离散化,是一个特例,我们可以将这种连续变换形式化地表示为一个常微分方程:

文章插图
如果从导数定义的角度来看,当 t 的变化趋向于无穷小时,隐藏状态的变化 dh(t) 可以通过神经网络建模 。当 t 从初始一点点变化到终止,那么 h(t) 的改变最终就代表着前向传播结果 。这样利用神经网络参数化隐藏层的导数,就确确实实连续化了神经网络层级 。
现在若能得出该常微分方程的数值解,那么就相当于完成了前向传播 。具体而言,若 h(0)=X 为输入图像,那么终止时刻的隐藏层输出 h(T) 就为推断结果 。这是一个常微分方程的初值问题,可以直接通过黑箱的常微分方程求解器(ODE Solver)解出来 。而这样的求解器又能控制数值误差,因此我们总能在计算力和模型准确度之间做权衡 。
形式上来说,现在就需要变换方程 (2) 以求出数值解,即给定初始状态 h(t_0) 和神经网络的情况下求出终止状态 h(t_1):

文章插图
如上所示,常微分方程的数值解 h(t_1) 需要求神经网络 f 从 t_0 到 t_1 的积分 。我们完全可以利用 ODE solver 解出这个值,这在数学物理领域已经有非常成熟的解法,我们只需要将其当作一个黑盒工具使用就行了 。
从微分方程到残差网络
前面提到过残差网络是神经常微分方程的特例,可以说残差网络是欧拉方法的离散化 。两三百年前解常微分方程的欧拉法非常直观,即 h(t +Δt) = h(t) + Δt×f(h(t), t) 。每当隐藏层沿 t 走一小步Δt,新的隐藏层状态 h(t +Δt) 就应该近似在已有的方向上迈一小步 。如果这样一小步一小步从 t_0 走到 t_1,那么就求出了 ODE 的数值解 。
如果我们令 Δt 每次都等于 1,那么离散化的欧拉方法就等于残差模块的表达式 h(t+1) = h(t) + f(h(t), t) 。但是欧拉法只是解常微分方程最基础的方法,它每走一步都会产生一点误差,且误差会累积起来 。近百年来,数学家构建了很多现代 ODE 求解方法,它们不仅能保证收敛到真实解,同时还能控制误差水平 。
陈天琦等研究者构建的 ODE 网络就使用了一种适应性的 ODE solver,它不像欧拉法移动固定的步长,相反它会根据给定的误差容忍度选择适当的步长逼近真实解 。如下图所示,左边的残差网络定义有限转换的离散序列,它从 0 到 1 再到 5 是离散的层级数,且在每一层通过激活函数做一次非线性转换 。此外,黑色的评估位置可以视为神经元,它会对输入做一次转换以修正传递的值 。而右侧的 ODE 网络定义了一个向量场,隐藏状态会有一个连续的转换,黑色的评估点也会根据误差容忍度自动调整 。
- 教你正确区分巴沙鱼和多利鱼 多利鱼图片
- windows如何快速移动文件 windows文件夹的移动
- 喷墨打印机打印重影如何解决 打印机打印重影怎么解决
- 我的电脑图标不见了找回方法 电脑上图标不见了如何找回
- iphone如何设置来电拒接 iphone手机来电如何拒接
- ID卡和IC卡的区别 如何区别ic卡与id卡
- excel如何对文本进行排序 excel中怎么给文本排序
- 如何取消苹果系统更新提醒 如何关闭苹果手机的系统更新提醒
- 教你用百花鱼做酸爽的酸菜鱼 百花鱼怎么做
- 三十分钟教你快速入门隶书书法 初学隶书该做什么