Addressing Representation Collapse in Vector Quantized Models with One Linear Layer
SimVQ, 坐标变换替代可学习 Codebook
SimVQ, 坐标变换替代可学习 Codebook
一种利用 Rotation Trick 来替代 STE 的方案
来自 OpenAI 的 process supervision
来自 DeepSeek 的 process supervision
统一 graph/edge/node-level 的 graph prompt
LLM Representational Collapse
TTA, Test-Time Augmentation
CPT, 类似 CosineAnnealingWarmRestarts 的 Precision 循环机制
Q-GaLore, 对 GaLore 进一步施加低精度量化
SWALP, 通过 SWA 稳定低精度训练