Transformers need glasses! Information Over-Squashing in Language Tasks
LLM Representational Collapse
LLM Representational Collapse
GaLore, 低秩空间中的梯度投影以及权重更新
MicroAdam, 通过梯度稀疏化以及 error compensation 实现轻量的优化器
Q-GaLore, 对 GaLore 进一步施加低精度量化
快手, 广告场景下的 Scaling Laws
EMR-MERGING, 多任务权重合并技术
QARM, 多模态推荐对齐与量化
探究 LLM 如何记忆和提取知识的实验性文章
LIGER, 生成式检索的冷启动缺陷与解决方案
CARec, ID-Textual 特征对齐