EARN: Efficient Inference Acceleration for LLM-based Generative Recommendation by Register Tokens
通过减小 KV cache size 加速 LLMRec 的推理
通过减小 KV cache size 加速 LLMRec 的推理
LC-Rec, LLM + RQ-VAE + 丰富的多任务训练
讨论 RoPE base 对于相似 Tokens 感知能力的影响
理解 RoPE 的高低频
LLM Representational Collapse
Next-token embedding 之于协同过滤
探究 LLM 如何记忆和提取知识的实验性文章