Reinforcement Learning

  • 强化学习

2024

利用重复采样估计优势函数

2017

策略更新的自适应裁剪

2015

信赖域内的策略优化: 引入后续常见的重要性采样和 KL 约束

1992

策略梯度法