Addressing Representation Collapse in Vector Quantized Models with One Linear Layer
SimVQ, 坐标变换替代可学习 Codebook
SimVQ, 坐标变换替代可学习 Codebook
来自 OpenAI 的 process supervision
来自 DeepSeek 的 process supervision
讨论 RoPE base 对于相似 Tokens 感知能力的影响
LLM Representational Collapse
GaLore, 低秩空间中的梯度投影以及权重更新
MicroAdam, 通过梯度稀疏化以及 error compensation 实现轻量的优化器
Q-GaLore, 对 GaLore 进一步施加低精度量化
快手, 广告场景下的 Scaling Laws
EMR-MERGING, 多任务权重合并技术