论文
随笔
Slides
⤴
Search
Reinforcement Learning
强化学习
2024
GRPO
利用重复采样估计优势函数
2017
PPO
策略更新的自适应裁剪
2015
TRPO
信赖域内的策略优化: 引入后续常见的重要性采样和 KL 约束
1992
REINFORCE Algorithm
策略梯度法
Trend
Reinforcement Learning