DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Language Models
GRPO: Group Relative Policy Optimization
GRPO: Group Relative Policy Optimization
定制化 Agent-Computer Interface
SWE-Bench
在知识图谱上实现 LLM, KG 的交替推理
兼顾语义和协同信息的 Tokenizer
非结构化的一维离散 Visual Tokens 生成策略
自回归图像生成: Multi-scale Quantization & Next-scale Prediction
探究非 Subword Tokenizer 的可能性
LC-Rec, LLM + RQ-VAE + 丰富的多任务训练
SimVQ, 坐标变换替代可学习 Codebook