Trust Region Policy Optimization

预备知识

核心思想


proof:

首先, 我们有

$$ Q_{\pi}(s_t, a_t) = \mathbb{E}_{s_{t+1}} \left [ r(s_{t+1}) + \gamma V_{\pi}(s_{t+1}) \right], $$

这能直接推出

$$ A_{\pi}(s, a) = \mathbb{E}_{s' \sim p(s' | s, a)} \left [ r(s) + \gamma V_{\pi}(s') - V_{\pi}(s) \right ], $$

需要注意的是, 这里 $s_{t+1}$ 的采样与策略 $\pi$ 无关. 因此 (约定 $\tau = (s_0, a_0, \ldots)$),

$$ \begin{align*} &\mathbb{E}_{\tau| \tilde{\pi}} \left [ \sum_{t=0} \gamma^t A_{\pi}(s_t, a_t) \right] \\ =&\mathbb{E}_{\tau| \tilde{\pi}} \left [ \sum_{t=0} \gamma^t( r(s_t) + \gamma V_{\pi}(s_{t+1}) - V_{\pi}(s_t) ) \right] & \leftarrow s_{t+1}\text{ 采样与策略无关, 期望可以合并}\\ =& \mathbb{E}_{\tau|\tilde{\pi}} \left [ -V_{\pi}(s_0) + \sum_{t=0} \gamma^t r(s_t) \right] & \leftarrow \text{ Telescoping Sum} \\ =&-\mathbb{E}_{s_0} [V_{\pi}(s_0)] + \mathbb{E}_{\tau| \tilde{\pi}} \left [\sum_{t=0} \gamma^t r(s_t) \right] \\ =& -\eta(\pi) + \eta (\tilde{\pi}). \end{align*} $$

注: $\sum_{s} \rho_{\pi}(s) = \frac{1}{1 - \gamma}$, 因此 $\tilde{\rho}_{\pi} = (1 - \gamma)\rho_{\pi}$ 可以看成是 $s \in \mathcal{S}$ 上的一种边际分布.

参考文献

  1. Schulman J., Levine S., Moritz P., Jordan M. and Abbeel P. Trust Region Policy Optimization. ICML, 2015. [PDF] [Code]