CPT: Efficient Deep Neural Network Training via Cyclic Precision
CPT, 类似 CosineAnnealingWarmRestarts 的 Precision 循环机制
CPT, 类似 CosineAnnealingWarmRestarts 的 Precision 循环机制
Q-GaLore, 对 GaLore 进一步施加低精度量化
SWALP, 通过 SWA 稳定低精度训练
快手, 广告场景下的 Scaling Laws
EMR-MERGING, 多任务权重合并技术
QARM, 多模态推荐对齐与量化
Next-token embedding 之于协同过滤
ReaRec, 多步序列推荐推理
探究 LLM 如何记忆和提取知识的实验性文章
SAKT, 自注意力知识追踪