Reinforcement Learning

强化学习

2024

GRPO

利用重复采样估计优势函数

2017

PPO

策略更新的自适应裁剪

2015

TRPO

信赖域内的策略优化: 引入后续常见的重要性采样和 KL 约束

1992

REINFORCE Algorithm

策略梯度法