Lightweight Optimizers

轻量化的 Muon 优化器: Lienar or Dynamic quantization

在大规模训练中采用了 BF16 的优化器

分析在小批次下 GaLore 对梯度的错误估计, 建议采用随机投影矩阵

对 GaLore 进一步施加低精度量化

发现 block-wise adaptive learning rate 的优势

通过梯度稀疏化以及 error compensation 实现轻量的优化器

Block corrdinate descent 来节约显存开销

Low-rank state, 理论上等价于 LoRA

Dynamic Exponent/Linear+

在 Adafactor 基础上引入置信度调节机制

符号梯度更新

Block-wise Dynamic Exponent quantization

本质上是 Adam 预训练 + 1-bit SGD

Blockwise Adaptive Learning Rate with Momentum

同一集合的状态共享 (集合可以是行和列的形式)

row-wise, col-wise 的二阶状态, 以及一些自适应的改进

将误差补偿用于梯度的 allreduce, 减小通信代价