Math-Shepherd: Verify and Reinforce LLMs Step-by-step without Human Annotations

预备知识

核心思想

Estimation

Verification

  1. 采取所有 step 打分的最小值作为整个 solution 的 score;

  2. 通过如下方式可以综合 $N$ 个采样得到的 solutions 的结果:

    $$ \text{argmax}_{a} \sum_{i=1}^N \mathbb{I}(a_i = a) \cdot PRM(p, S_i), $$

    这里 $p, S_i$ 分别表示问题 $p$ 的第 $i$ 个 solution.

实验结果

20250610114117

20250610114313

参考文献

  1. Wang P., Li L., Shao Z., Xu R., Dai D., Li Y., Chen D., Wu Y., and Sui Z. Math-Shepherd: Verify and Reinforce LLMs Step-by-step without Human Annotations. ACL, 2024. [PDF] [Code]