SWALP: Stochastic Weight Averaging in Low-Precision Training

May 6, 2025

Content

预备知识
核心思想
参考文献

预备知识

对 Fully Quantized Quantization (FQT) 有个基本的了解.

核心思想

Low-precision training 能够加速模型训练 (且往往消耗更少的显存), 因为是相当重要的研究课题. 但是, 被人诟病的是它的不稳定性以及所导致的性能下降.
上述的一个很大问题可能是低精度下收敛的振荡导致的 (因为实际上有了更多的噪声), 作者建议通过 SWA (Stocastic Weight Averaging [2]) 来稳定.

20250506174256

如上图所示, 权重 $w$ 由于低精度的原因在最优点附近振荡, 这个时候通过 SWA 可以使得平均后的结果更为接近最优点, 其算法如下:

20250506174807

参考文献

Yang G., Zhang T., Kirichenko P., Bai J., Wilson A. G., and Sa De C. SWALP: Stochastic Weight Averaging in Low-Precision Training. ICML, 2019. [PDF] [Code]
Izmailov P., Podoprikhin D., Garipov T., Vetrov D., and Wilson A. G. Averaging Weights Leads to Wider Optima and Better Generalization. arXiv, 2018. [PDF] [Code]