摘要

深度学习的性能曾长期受限于“退化问题”。本文通过对比传统神经网络的复合映射（Composite Mapping）与残差网络的累加映射（Additive Mapping），揭示了两者的拓扑差异。利用微积分中的泰勒展开与线性代数中的特征谱分析，本文论证了残差结构如何将复杂的非线性优化转化为对恒等算子的微扰，并从数值分析的角度解释了深度与模拟精度之间的必然联系。

一、背景：从复合结构到退化困境

1.1 非残差网络的复合结构

传统的前馈神经网络（Plain Networks）本质上是一个复合算子序列。假设网络有 $L$ 层，输入为 $x$，则输出 $h_L$ 表现为：

$$ h_L = f_L(f_{L-1}(\dots f_1(x) \dots)) $$

数学特性：每一层 $f_l$ 都必须完整地学习从输入流形到输出流形的变换。
优化难度：这种“嵌套”结构意味着底层的微小变动会通过后续层的复合作用产生指数级的非线性扭曲。在初始化阶段，若权重矩阵的奇异值偏离 1，信号在经过数十层复合映射后，其特征空间的曲率会变得极度震荡。

1.2 残差网络的累加结构

ResNet 引入了跳跃连接（Skip Connection），将映射方式从复合改写为累加：

$$ h_{l+1} = h_l + \mathcal{F}(h_l, W_l) $$

如果我们将 $L$ 层展开，输出可以表示为：

$$ h_L = h_0 + \sum_{l=0}^{L-1} \mathcal{F}_l(h_l, W_l) $$

核心差异：网络输出从单路径的深度复合，转变为恒等映射与多个残差支路的线性组合。这种累加结构允许梯度在反向传播时，有一条不经过任何权重相乘的“捷径”直接回到浅层。

二、泰勒展开视角：拟合“变化率”而非“全貌”

2.1 恒等算子的泰勒一阶近似

假设我们的目标是学习一个复杂的映射 $H(x)$。根据泰勒公式，若 $H(x)$ 在 $x$ 处平滑，可展开为：

$$ H(x) = x + H'(x)\Delta x + \frac{H''(x)}{2!}(\Delta x)^2 + \dots $$