深度学习的性能曾长期受限于“退化问题”。本文通过对比传统神经网络的复合映射(Composite Mapping)与残差网络的累加映射(Additive Mapping),揭示了两者的拓扑差异。利用微积分中的泰勒展开与线性代数中的特征谱分析,本文论证了残差结构如何将复杂的非线性优化转化为对恒等算子的微扰,并从数值分析的角度解释了深度与模拟精度之间的必然联系。
传统的前馈神经网络(Plain Networks)本质上是一个复合算子序列。假设网络有 $L$ 层,输入为 $x$,则输出 $h_L$ 表现为:
$$ h_L = f_L(f_{L-1}(\dots f_1(x) \dots)) $$
ResNet 引入了跳跃连接(Skip Connection),将映射方式从复合改写为累加:
$$ h_{l+1} = h_l + \mathcal{F}(h_l, W_l) $$
如果我们将 $L$ 层展开,输出可以表示为:
$$ h_L = h_0 + \sum_{l=0}^{L-1} \mathcal{F}_l(h_l, W_l) $$
假设我们的目标是学习一个复杂的映射 $H(x)$。根据泰勒公式,若 $H(x)$ 在 $x$ 处平滑,可展开为:
$$ H(x) = x + H'(x)\Delta x + \frac{H''(x)}{2!}(\Delta x)^2 + \dots $$