DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Language Models

预备知识

核心思想

注: 可以认为, LLM policy model 输出每个 token 就是做一次 action, 因此链路为:

$$ q \xrightarrow{\text{action}} o_1 \xrightarrow{\text{update}} (q, o_1) \xrightarrow{\text{action}} o_2 \xrightarrow{\text{update}} (q, o_1, o_2) \rightarrow \cdots $$

20260305133052

注: $r_i - \text{mean}(\mathbf{r})$ 的操作相对来说是比较好理解的, 因为 $r_i$ 类似 $Q(s, a)$, $\text{mean}(\mathbf{r})$ 类似 $V(s)$.

疑问: 为什么 process supervision 的过程中不添加折扣因子?

参考文献

  1. Shao Z., Wang P., Zhu Q., Xu R., Song J., Bi X., Zhang H., Zhang M., Li Y., Wu Y. and Guo D. DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Language Models. arXiv, 2024. [PDF] [Code]