Jaison's ink

Back

误区
如果你上过AndrewNG的CS229/CS230/Coursera Deep Learning课程,你一定会对Bias-Variance Trade-Off记忆犹新。
而由于参数量越大的模型拟合能力越强,也就更容易出现低Bias高Variance的情况(这个直觉至今仍然正确)。
以此推断,当模型参数量过了某个甜点之后,Training Error会继续下降,但Test Error则会因为过拟合不降反升(这个直觉就不一定正确了)

在2013年著名的AlexNet论文成功训练了高达61M参数的模型,当时人们认为:
是Data Augmentation和Drop-Out技术这两个正则化技术,将模型从过拟合的右侧推回了刚好拟合的U型谷底。

颠覆
这样的解释简单而优美,就像牛顿力学定律一样。
但事实真的如此吗?

Google Brain 2016年的论文Understanding Deep Learning Requires Rethinking Generalization发现:
即使用上所有的正则化手段,深度学习模型的Training Error仍然是0。也就是说,我们并没有用Bias去换Variance,而是在没有提升Bias的情况下降低了Variance。

那么,Variance 究竟是如何在不牺牲 Bias 的前提下降低的?
实际上,后续论文发现:
提升模型的训练时间训练规模都可以降低Variance,并且如果将Test Error可视化,就会出现所谓的”Double Descent”(双重下降)。


可以发现该图的右侧Bias几乎没有变化,但是Variance下降。

解释
这样反常的现象是如何出现的?为什么参数量的升高一开始会导致Test Error的升高,但是过了波峰之后Test Error再次降低,乃至于比原来的波谷更低?

对于复杂模型的解释很复杂,学术界也没有定论,在此不多加赘述。

对于简单模型(多项式拟合),解释则是简单而优美的:
对于一个有10个数据点(5个放Training Set,5个放Test Set)的多项式拟合问题,

显然,1~3次多项式都不能保证经过Training Set中的全部5个数据点,到了4次多项式刚好有一条曲线可以全部经过,到了5次6次等大于4的更高次,则有无数种曲线可以经过5个数据点。(顺便一提,在这个简单的多项式拟合问题中,4次这个点就是这个数据集的插值阈值Interpolation Threshold

(如上图)在插值阈值之前,模型展现出经典的Bias-Vaiance Trade-off U型曲线。当次数到达插值阈值4时,Variance抵达巅峰。

但是当多项式次数到达5之后,有无数种多项式曲线可以穿过这5个点。

这些曲线中,显然有一些Variance大,有一些Variance小。

这时,如果我们的学习算法(Gradient Descent…)有归纳偏置,倾向于选择范数较小的曲线(在多项式拟合中可以用参数平方和来评估),那么就会在这些曲线中选择较平滑的一条(Variance也较小),从而出现Double Descent现象。

Inductive bias(归纳偏置)是指:
在训练数据不足以唯一确定解时,学习算法“默认更偏好哪一类假设/函数”的内在倾向。

此处的10次多项式是所有解当中的最小范数解,可以看到,虽然左图中的黄色曲线看起来很复杂,但是Variance相比于插值阈值降低了

到这里,我们基本可以给简单模型情况下的Double Descent下个结论:

1.在插值阈值之前,模型没有足够的参数完美拟合所有点(没有完美解),我们只能用Variance来换Bias。
2.在插值阈值时,解空间中只有一个完美解(病态),在此时噪声会放大(因为到此时可以完美拟合了,模型就不能容忍一点bias),导致Variance极大,造成Test Error的波峰。
3.在插值阈值之后,解空间维度越来越大(模型的Flexibility也越来越大),配合上有Inductive bias的学习算法,就可以再次降低Variance,从而导致Double Descent。

使用
此时你应该发现了:
我们过去看到Test Error重新回升便采用早停策略的做法是错误的,在参数量稍微大一点看到Variance上升就停止增大参数量的做法也是错误的。

我们要给模型足够的表示能力与灵活性(flexibility),使其在跨越插值阈值(interpolation threshold)之后,进入泛化性能回升(double descent)的阶段。
简单来说,给其足够的“成长空间”,从而等其“否极泰来”。

应注意,Double Descent 现象通常发生在过参数化(Over-parameterized)区域。如果参数量相比于任务难度不大(Training Error没有接近0,即没有接近插值区),不应该盲目等待Double Descent。

注:
本文大部分内容来自以下视频,是我看完该视频之后的费曼学习成果。
What the Books Get Wrong about AI (Double Descent)

Double Descent的极简解释
https://jaison.ink/blog/double-descent/article
Author Jaison
Published at January 19, 2026
Loading comments…