SpaceByte: Towards Deleting Tokenization from Large Language Modeling
探究非 Subword Tokenizer 的可能性
探究非 Subword Tokenizer 的可能性
借鉴 Hawkes Process 思想建模知识掌握的交叉影响和衰减
通过减小 KV cache size 加速 LLMRec 的推理
COBRA, 链接离散编码和稠密表示的尝试
LC-Rec, LLM + RQ-VAE + 丰富的多任务训练
OneRec, 端到端的推荐模型
SimVQ, 坐标变换替代可学习 Codebook
一种利用 Rotation Trick 来替代 STE 的方案
来自 OpenAI 的 process supervision
来自 DeepSeek 的 process supervision