Lightweight Optimizers
- Lightweight optimiers 的主要出发点是 Adam(W) 需要 2x model size 的状态存储, 实际使用时会消耗相当多的显存.
- 主流的改进策略是如何存储压缩后的状态, 可以是通过低精度的量化方法, 也可以是通过矩阵的低秩近似. 此外, 也有像 Lion 这样设计之初就更为轻量的方法.
2025
轻量化的 Muon 优化器: Lienar or Dynamic quantization
2024
2023
2021
Block-wise Dynamic Exponent quantization
本质上是 Adam 预训练 + 1-bit SGD
2018
row-wise, col-wise 的二阶状态, 以及一些自适应的改进
2014
将误差补偿用于梯度的 allreduce, 减小通信代价