PG-TRPO

Abstract

1. Introduction

2. Preliminaries

考虑一个 Infinite-Horizon 的带折扣 MDP $(S, A, P, r, ρ_{0}, γ)$ ，其中 $S$ 是有限状态集， $A$ 是有限动作集， $P : S \times A \times S \to R$ 是转移概率分布， $r : S \to R$ 是奖励函数， $ρ_{0} : S \to R$ 是初始状态 $s_{0}$ 的分布，并且 $γ \in (0, 1)$ 是折扣因子。

对于策略 $π : S \times A \to [0, 1]$ ，其期望折扣奖励定义为

η (π) = E_{s_{0}, a_{0}, \dots} [t = 0 \sum \infty γ^{t} r (s_{t})]

这里 $s_{0}, a_{0}, \dots$ 为 $π$ 生成的一个无限长的轨迹，类似可以定义价值函数 $V_{π}$ 、动作-价值函数 $Q_{π}$ 和优势函数 $A_{π}$ 。可以证明，对于任意两个策略 $π$ 和 $\tilde{π}$ ，我们可以使用优势函数估计两个策略期望回报的差距：

η (\tilde{π}) - η (π) = E_{τ \sim \tilde{π}} [t = 0 \sum \infty γ^{t} A_{π} (s_{t}, a_{t})] (1)

Proof

注意到 $A_{π} (s, a) = E_{s^{'} \sim P (\cdot ∣ s, a)} [r (s) + γ V_{π} (s^{'}) - V_{π} (s)]$ 。我们可以有下面估计
$E_{τ \sim \tilde{π}} [t = 0 \sum \infty γ^{t} A_{π} (s_{t}, a_{t})] = E_{τ \sim \tilde{π}} [t = 0 \sum \infty γ^{t} (r (s_{t}) + γ V_{π} (s_{t + 1}) - V_{π} (s_{t}))] = E_{τ \sim \tilde{π}} [- V_{π} (s_{0}) + t = 0 \sum \infty γ^{t} r (s_{t})] = - E_{s_{0}} [V_{π} (s_{0})] + E_{τ \sim \tilde{π}} [t = 0 \sum \infty γ^{t} r (s_{t})] = - η (π) + η (\tilde{π})$

如果定义 $\overset{ˉ}{A} (s)$ 为状态 $s$ 下 $\tilde{π}$ 相对于 $π$ 的预期优势：

\overset{ˉ}{A} (s) = E_{a \sim \tilde{π} (\cdot ∣ s)} [A_{π} (s, a)] .

那么，式 (1) 可以写成如下形式：

η (\tilde{π}) = η (π) + E_{τ \sim \tilde{π}} [t = 0 \sum \infty γ^{t} \overset{ˉ}{A} (s_{t})] (2)

如果给出一个（未归一化的）折扣状态访问频率 $ρ_{π}$ ，我们就可以重写期望 $E_{τ \sim \tilde{π}} [\sum γ^{t} A_{π} (s_{t}, a_{t})]$ ：

ρ_{π} (s) η (\tilde{π}) = P (s_{0} = s) + γ P (s_{1} = s) + γ^{2} P (s_{2} = s) + \dots, = η (π) + t = 0 \sum \infty s \sum P (s_{t} = s ∣ \tilde{π}) a \sum \tilde{π} (a ∣ s) γ^{t} A_{π} (s, a) = η (π) + s \sum t = 0 \sum \infty γ^{t} P (s_{t} = s ∣ \tilde{π}) a \sum \tilde{π} (a ∣ s) A_{π} (s, a) = η (π) + s \sum ρ_{\tilde{π}} (s) a \sum \tilde{π} (a ∣ s) A_{π} (s, a) . (3)

如果对于一个策略更新 $π \to \tilde{π}$ ， $\tilde{π}$ 在每个状态 $s$ 处都具有非负的期望优势 $\sum_{a} \tilde{π} (a ∣ s) A_{π} (s, a) \geq 0$ ，那么这个策略更新就一定可以保证可以提升策略性能 $η$ ，就算这个期望更新在所有状态都为零也可以保持策略性能恒定。这就可以保证经典的策略迭代成立了，如果使用确定性策略 $\tilde{π} (s) = ar g max_{a} A_{π} (s, a)$ ，且至少存在一个状态-动作对 $(s, a)$ 使得 $A_{π} (s, a) > 0$ 且 $P (s ∣ \tilde{π}) > 0$ ，那么策略就一定会提升，否则算法就已经收敛到最优策略了。

但是，在近似情形/Approximate Setting 下，由于目标和更新都不是精确的，通常会出现估计误差和近似误差，要么是通过采样/时序差分得到的 $A_{π}$ 不精确，要么是 $\tilde{π}$ 不是贪心的，或者两者兼而有之，因此对某些状态 $s$ 来说，有可能出现 $\sum_{a} \tilde{π} (a ∣ s) A_{π} (s, a) < 0$ ，这是不可避免的。因此我们需要考虑使用策略梯度。

另一方面，式 (3) 中的 $ρ_{\tilde{π}}$ 对 $\tilde{π}$ 的依赖过于复杂，如果直接使用策略梯度，那就必须要对 $ρ_{\tilde{π}}$ 进行求导，还得对新分布采样，这就极其复杂。因此我们将 (3) 内的 $ρ_{\tilde{π}}$ 冻结为旧分布 $ρ_{π}$ ，忽略由于策略变化而引起的状态访问密度的变化，从而切断上述复杂依赖，得到 $η$ 的局部近似

L_{π} (\tilde{π}) = η (π) + s \sum ρ_{π} (s) a \sum \tilde{π} (a ∣ s) A_{π} (s, a) . (4)

很容易知道，如果 $π_{θ}$ 是一个参数的策略， $π_{θ} (a ∣ s)$ 可微，其实 $L_{π}$ 和 $η$ 在旧点处是一阶等价的，也就是对于任意的参数 $θ_{0}$ ，都有

L_{π_{θ_{0}}} (π_{θ_{0}}) \nabla_{θ} L_{π_{θ_{0}}} (π_{θ})_{θ = θ_{0}} = η (π_{θ_{0}}), = \nabla_{θ} η (π_{θ}) ∣_{θ = θ_{0}} . (5)

Supplementary

第一个是显然的，第二个可以直接证明：
$\nabla_{θ} L_{π_{θ_{0}}} (π_{θ}) \nabla_{θ} η (π_{θ}) = \nabla_{θ} (η (π_{θ_{0}}) + s \sum ρ_{π_{θ_{0}}} (s) a \sum π_{θ} (a ∣ s) A_{π_{θ_{0}}} (s, a)) = s \sum ρ_{π_{θ_{0}}} (s) a \sum \nabla_{θ} π_{θ} (a ∣ s) A_{π_{θ_{0}}} (s, a) = \nabla_{θ} (η (π_{θ_{0}}) + s \sum ρ_{π_{θ}} (s) a \sum π_{θ} (a ∣ s) A_{π_{θ_{0}}} (s, a)) = s \sum (\nabla_{θ} ρ_{π_{θ}} (s) a \sum π_{θ} (a ∣ s) A_{π_{θ_{0}}} (s, a) + ρ_{π_{θ}} (s) a \sum \nabla_{θ} π_{θ} (a ∣ s) A_{π_{θ_{0}}} (s, a)) = s \sum ρ_{π_{θ}} (s) a \sum \nabla_{θ} π_{θ} (a ∣ s) A_{π_{θ_{0}}} (s, a)$

这就表明，可以改善 $L_{π_{θ_{o l d}}}$ 的一个充分小的更新 $π_{θ_{0}} \to \tilde{π}$

Paper List

Explorer

Trust Region Policy Optimization

1. Introduction

2. Preliminaries

Appendix: Conservative Policy Iteration

Table of Contents