DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Language Models
GRPO: Group Relative Policy Optimization
GRPO: Group Relative Policy Optimization
PPO
著名的 REINFORCE 算法
PPO 的前身
不同采样策略在不同曝光偏差下的区分性, 鲁棒性, 一致性
将 Product Quantization 用于搜索以降低存储占用
多尺度 Transformer, 探究非 Subword Tokenizer 的可能性
一种利用 Rotation Trick 来替代 STE 的方案
探究 LLM 如何记忆和提取知识的实验性文章
DKVMN, 带记忆结构的知识追踪