BEiT: BERT Pre-Training of Image Transformers
Visual Tokens & Masked Image Modeling
Visual Tokens & Masked Image Modeling
一种利用 Rotation Trick 来替代 STE 的方案
来自 OpenAI 的 process supervision
理解 RoPE 的高低频
CPT, 类似 CosineAnnealingWarmRestarts 的 Precision 循环机制
Next-token embedding 之于协同过滤