Let’s Verify Step by Step

预备知识

核心思想

20250610104209

PRM 的 Active Learning

20250610105603

PRM 的使用

20250610105044

注: 作者在附录里还提到了另一种打分方式: 所有 step 的正确概率的最小值.

20250610105811

注: 需要 few-shot prompt 来保证 solution 是 step-by-step 的.

参考文献

  1. Lightman H., Kosaraju V., Burda Y., Edwards H., Baker B. Lee T., Leike J., Schulman J., Sutskever I., and Cobbe K. Let's Verify Step by Step. ICLR, 2024. [PDF] [Code]