Lightweight Optimizers

  • Lightweight optimiers 的主要出发点是 Adam(W) 需要 2x model size 的状态存储, 实际使用时会消耗相当多的显存.
  • 主流的改进策略是如何存储压缩后的状态, 可以是通过低精度的量化方法, 也可以是通过矩阵的低秩近似. 此外, 也有像 Lion 这样设计之初就更为轻量的方法.

2025

轻量化的 Muon 优化器: Lienar or Dynamic quantization

2024

在大规模训练中采用了 BF16 的优化器
分析在小批次下 GaLore 对梯度的错误估计, 建议采用随机投影矩阵
对 GaLore 进一步施加低精度量化
发现 block-wise adaptive learning rate 的优势
通过梯度稀疏化以及 error compensation 实现轻量的优化器
Block corrdinate descent 来节约显存开销
Low-rank state, 理论上等价于 LoRA

2023

Dynamic Exponent/Linear+
在 Adafactor 基础上引入置信度调节机制
符号梯度更新

2021

Block-wise Dynamic Exponent quantization
本质上是 Adam 预训练 + 1-bit SGD

2019

Blockwise Adaptive Learning Rate with Momentum
同一集合的状态共享 (集合可以是行和列的形式)

2018

row-wise, col-wise 的二阶状态, 以及一些自适应的改进

2014

将误差补偿用于梯度的 allreduce, 减小通信代价