An Image is Worth 32 Tokens for Reconstruction and Generation
非结构化的一维离散 Visual Tokens 生成策略
非结构化的一维离散 Visual Tokens 生成策略
自回归图像生成: Multi-scale Quantization & Next-scale Prediction
探究非 Subword Tokenizer 的可能性
LC-Rec, LLM + RQ-VAE + 丰富的多任务训练
SimVQ, 坐标变换替代可学习 Codebook
来自 OpenAI 的 process supervision
来自 DeepSeek 的 process supervision
讨论 RoPE base 对于相似 Tokens 感知能力的影响
LLM Representational Collapse
GaLore, 低秩空间中的梯度投影以及权重更新