1-bit Adam: Communication Efficient Large-Scale Training with Adam's Convergence Speed
Adam 预训练的 1-bit SGD 优化方法
Adam 预训练的 1-bit SGD 优化方法
CPT, 类似 CosineAnnealingWarmRestarts 的 Precision 循环机制
GaLore, 低秩空间中的梯度投影以及权重更新
MicroAdam, 通过梯度稀疏化以及 error compensation 实现轻量的优化器
Q-GaLore, 对 GaLore 进一步施加低精度量化
SWALP, 通过 SWA 稳定低精度训练
快手, 广告场景下的 Scaling Laws
EMR-MERGING, 多任务权重合并技术
OneRec, 端到端的推荐模型
QARM, 多模态推荐对齐与量化