The Definitive Guide to Policy Gradients

Abstract

这篇综述的目标是全面概述 On-Policy 的策略梯度算法：

第二节概述了深度强化学习需要的 符号表示、强化学习基础知识 以及必要的 深度学习基础知识。虽然这部分内容基本上大多数人都熟悉了，但是我正好借着这篇综述总结一下。

第三节介绍了策略梯度算法的理论基础，包括 Policy Gradient Theorem 连续版本的详细证明、使用 Baseline 以及优势函数来降低方差的技术。

1. Introduction

强化学习通过与环境交互的试错来实现学习最优策略的任务。在早期的强化学习，最成功的应用大多使用基于价值的方法，这些方法估计预期的未来奖励，从而为智能体的决策提供信息。但是这些方法只是间接优化了我们的真正目标——学习最优策略，况且基于价值的方法在具有连续动作空间的环境中应用并非易事。

在这篇综述中，我们讨论的是 策略梯度算法。策略梯度算法旨在学习最优策略，与基于价值的方法相比，策略梯度算法本质上学习随机策略，进而可以产生更加平滑的搜索空间，也在一定程度上弥补了为了优化策略而必须获取环境知识的探索问题，并且策略梯度方法可以在学习过程中实现策略的更平滑变化，这可能会带来更好的收敛特性。

这篇综述的目标是全面概述 On-Policy 的策略梯度算法，虽然排除了一些流行的算法，包括 DDPG 和 SAC 等等，具体来讲，这篇综述做了下面几件事：

全面介绍了策略梯度算法的理论基础，包括 Policy Gradient Theorem 连续版本的详细证明；
推导并且比较了最突出的策略梯度算法；
「Optional」提供了高质量的伪代码、发布了这些算法的高质量实现，虽然使用的是 Jax。

2. Preliminaries

主要分三个部分，分别是符号表示、强化学习回顾以及深度学习基础。

符号表示没有什么多说的，我们这里使用的基本都是 Lebesgue 积分，将 $A$ 上可测函数 $f$ 的积分写成 $\int_{a \in A} f (a) d a : = \int_{a \in A} f (a) d λ (a)$ 。另外，我们使用 $E_{X \sim p} [X]$ 和 $Var_{X \sim p} [X]$ 表示 $X$ 服从分布 $p$ 的期望和方差。使用 $Δ (A)$ 表示可测空间 $A$ 的概率分布集。对于变量或者函数 $x$ ，使用 $\overset{x}{^}$ 表示对其的近似。

2.1 RL Basics

强化学习中的每一个问题都包含一个 Agent 和一个环境，环境包括 Agent 外部的所有事物，Agent 通过与环境交互实现某一个特定目标。交互的过程可以被形式化为一个马尔可夫决策过程/Markov Decision Process，我们将其写成一个元组 $M = (S, A, P, γ, p_{0})$ ，其中 $P : S \times A \to Δ (S \times R)$ 是环境的转移函数，定义了在状态 $s$ 下采取动作 $a$ 后，转移到新的环境状态 $s^{'}$ 并获得奖励 $r \in R$ 的概率 $P (s^{'}, r ∣ s, a)$ ， $γ \in [0, 1]$ 是折扣率， $p_{0} \in Δ (S)$ 是潜在起始状态上的概率分布。

我们将状态、动作和奖励的序列 $(s_{t}, a_{t}, r_{t + 1}, s_{t + 1}, \dots, s_{t + k - 1}, a_{t + k - 1}, r_{t + k}, s_{t + k})$ 称为一个轨迹/Trajectory，一个单步轨迹 $(s_{t}, a_{t}, r_{t + 1}, s_{t + 1})$ 称为一个转移/Transition。

在接下来的设定中，我们假设奖励 $r$ 是有界的、状态和动作空间都是连续的，并且我们限制在 Episodic 设定下，这意味着 Agent 与环境交互的步数是有限的，在交互结束后，环境被重置为初始状态，这说明轨迹的长度至多为 $T$ 。

强化学习的主要目标是解决一个控制问题，学习到一个策略 $π : S \to Δ (A)$ ，以最大化期望回报。我们讲的折扣回报 $G_{t} := \sum_{k = 0}^{T} γ^{k} r_{t + k + 1}$ 是从时间步 $t$ 开始的折扣奖励之和，在 Episodic 设定以及有界奖励设定下，显然折扣奖励是有界的。

使用 $π (a ∣ s)$ 表示在策略 $π$ 下，在状态 $s$ 下采取动作 $a$ 的概率。对于一个策略 $π$ ，其平稳状态分布 $d^{π}$ 决定了在遵循 $π$ 时，在任何时间点处于特定状态 $s \in S$ 的概率。

令 $Π$ 是所有可能策略的集合。用于控制问题的强化学习算法 $A : Π \to Π$ 通过不断与环境交互来采样转移，进而更新策略，之后我们将关注如何更新策略。强化学习的一个重要特征是，在学习中需要权衡探索和利用/Exploration-Exploitation Trade-off。Agent 对环境没有先验知识，因此需要探索不同的转移，以便了解哪些状态和动作是可取的。然而，由于状态空间和动作空间通常很大，因此利用已经获得的关于环境的知识对于引导搜索过程，找到最有希望的子空间中的最优策略也至关重要。解决这个探索问题的一个常见方法是向策略添加噪声。

接下来可以回顾价值函数、动作价值函数、Bellman 方程和价值迭代的概念：

价值函数 $V_{π} (s) := E_{π} [G_{t} ∣ S_{t} = s]$ 给出了从状态 $s$ 开始，在遵循策略 $π$ 时，选择所有后续动作的期望回报。
动作价值函数 $Q_{π} (s, a) := E_{π} [G_{t} ∣ S_{t} = s, A_{t} = a]$ 给出了从状态 $s$ 开始，先采取动作 $a$ ，之后在遵循策略 $π$ 时，选择所有后续动作的期望回报。
优势函数 $A^{π} (s, a) := Q_{π} (s, a) - V_{π} (s)$ 给出了动作 $a$ 在状态 $s$ 中相对于其他可能动作的好坏程度。

价值函数和动作价值函数之间有一个显然的关系

V_{π} (s) = \int_{a \in A} π (a ∣ s) Q_{π} (s, a) d a

还可以推导出贝尔曼方程：

V_{π} (s) = E_{π} [G_{t} ∣ S_{t} = s] = E_{π} [R_{t + 1} + γ G_{t + 1} ∣ S_{t} = s] = E_{π} [R_{t + 1} + γ V_{π} (S_{t + 1}) ∣ S_{t} = s] = \int_{a \in A} π (a ∣ s) (\int_{s^{'} \in S} \int_{r \in R} P (s^{'}, r ∣ s, a) (r + γ E_{π} [G_{t + 1} ∣ S_{t + 1} = s^{'}]) d s^{'} d r) d a = \int_{a \in A} π (a ∣ s) (\int_{s^{'} \in S} \int_{r \in R} P (s^{'}, r ∣ s, a) (r + γ V_{π} (s^{'})) d s^{'} d r) d a

简单来讲，贝尔曼方程就是下面两个使用期望形式表示的等式：

V_{π} (s) Q_{π} (s, a) = E_{π} [R_{t + 1} + γ V_{π} (S_{t + 1}) ∣ S_{t} = s] = E_{π} [R_{t + 1} + γ Q_{π} (S_{t + 1}, A_{t + 1}) ∣ S_{t} = s, A_{t} = a]

我们知道，强化学习的目标是得到最大化期望回报，这对应着一个最优的策略，这里的最优按照下面定义：如果一个策略 $π^{*}$ 满足对于所有状态 $s \in S$ ，有 $V_{π^{*}} (s) \geq V_{π} (s)$ ，则称 $π^{*}$ 是最优策略。使用一些机器学习理论的知识：对每一个有限 MDP 中，都存在一个确定性的最优策略。所有最优策略共享相同的最优价值函数 $V^{*} (s) := max_{π \in Π} V_{π} (s)$ 和最优动作价值函数 $Q^{*} (s, a) := max_{π \in Π} Q_{π} (s, a)$ 。这意味着我们也有对应的 Bellman 方程

Q^{*} (s, a) = E [R_{t + 1} + γ Q^{*} (S_{t + 1}, A_{t + 1}) ∣ S_{t} = s, A_{t} = a]

利用最优性，我们也有下面的 广义策略迭代/Generalized Policy Iteration 算法：

Generalized Policy Iteration

令 $π_{old}$ 为当前策略。那么，广义策略迭代通过以下方式更新其策略：
$π_{new} \in ar g π \in Π max E_{A \sim π_{old}} [Q_{π_{old}} (s, A)]$
对于所有 $s \in S$ 。令 $π_{n}$ 通过广义策略迭代获得的一系列策略。那么，这个序列收敛到一个最优策略，即
$n \to \infty lim π_{n} = π^{*}, n \to \infty lim Q_{π_{n}} = Q^{*}$

2.2 On-Policy Policy Gradient

这部分分别介绍函数近似、策略梯度方法和 On-Policy 方法。

早期的强化学习方法本质上是表学习方法，通过维护查找表来学习价值函数、动作-价值函数以及策略的精确表示，虽然这些方法都有理论的收敛保证，但是并不能很好的推广到连续状态和动作空间，这主要是因为其很难将学习从一个已知的状态推广到其他状态。解决方法是使用函数逼近，我们参数化要学习的函数，这些参数在学习中进行调整，并且选择对于输入连续的函数逼近，就可以进行很好的泛化。当然，现在的工作一般都使用神经网络来进行函数逼近，这些领域被称为深度强化学习。

基于价值的方法目标在学习一系列收敛到最优价值函数的价值函数，然后就可以推断出最优策略。与之对比的是基于策略的方法，主要思想是增加产生高回报动作的概率，直到收敛到（近似）最优策略。虽然显然有很多方法可以解决这个优化问题，但是基于梯度的方法是最常用的。

Policy Gradient Algorithm

设 $π_{θ} : S \to Δ (A)$ 是一个完全可微的函数，其可学习参数 $θ \in R^{d}$ 将状态映射到动作上的概率分布。设 $J : R^{d} \to R$ 是参数的某一种性能度量。如果任何学习算法通过在 $J$ 上进行梯度上升/下降来更新 $θ$ ，从而学习其策略 $π_{θ}$ ，即其更新具有以下一般形式，则我们称之为策略梯度算法：
$θ_{new} \leftarrow θ + α \nabla_{θ} J (θ),$
其中 $α \in R$ 是该算法的步长参数。

我们有两种方式可以使策略输出动作的概率分布，进而从中采样动作。对于离散动作空间，我们使用 Softmax 进行归一化：

π (a ∣ s) = \frac{exp ( π _{θ} ( a ∣ s ))}{\sum _{a^{'} \in A} exp ( π _{θ} ( a ^{'} ∣ s ))}

对于连续动作空间，我们令 $π_{θ}$ 输出高斯分布的均值 $μ_{θ}$ 和标准差 $σ_{θ}$ ，即 $π_{θ} (s) = (μ_{θ} (s), σ_{θ} (s))$ ，使得

π (a ∣ s) = \frac{1}{σ _{θ} ( s ) 2 π} exp (- \frac{( a - μ _{θ} ( s ) ) ^{2}}{2 σ _{θ} ( s ) ^{2}})

这意味着我们为每一个状态都学习了一个动作的概率分布，根据概率分布采样动作。由于强化学习的动作空间一般是有界的，从这类高斯分布采样的动作一般通过裁剪或者挤压来进行转换，使得其落在动作空间之内。

最后，我们区分 On-Policy 和 Off-Policy 方法。在强化学习中，我们区分行为策略和目标策略。

行为策略是一种生成数据的策略，数据的形式为我们希望学习的轨迹，这是我们在与环境交互时从中采样动作的策略。
目标策略是我们想要了解的策略，我们评估这个策略在环境下的性能，然后加以改进。

比如 Q-Learning 和 DQN 都是 Off-Policy 方法。但是我们在这里只讨论 On-Policy 方法。

2.3 Deep Learning Basics

这一节就简单记一记了，我们主要是用前馈网络/Feedforward Neural Network/MLP，不会使用 Transformers。

深度学习相对于传统的机器学习技术，主要优势在于可以使用简单非线性函数的组合从原始数据中学习多个级别的表示来完成预测任务，后者往往需要手工设计的表示作为输入。

MLP 可以表示是一堆函数的组成

f = f^{(n + 1)} \circ \dots \circ f^{(1)}

我们将前 $n$ 层都称为隐藏层，最后一层 $f^{(n + 1)}$ 称为输出层。 $n$ 表示网络中隐藏层的数量，每一个隐藏层的特征在于其层宽度 $N_{i}$ 。设 $N_{0}$ 和 $N_{n + 1}$ 分别为输入和输出向量的大小。那么，我们可以将每一层写成

f^{(i)} (x) = g (W^{(i)} x + b^{(i)}),

其中 $x$ 是前一层的输出，或者当 $i = 1$ 时是网络的输入， $W^{(i)} \in R^{N_{i} \times N_{i - 1}}$ 和 $b^{(i)} \in R^{N_{i}}$ 分别是该层的权重矩阵和偏置向量，而 $g : R \to R$ 是引入非线性的可微激活函数，对每一个元素逐个应用。

显然可以发现，一个 MLP 可以通过其层大小、层深度以及激活函数类型来表征，也就是使用 $a = ((N_{i})_{i = 0}^{n + 1}, g)$ 来表征。Universal Approximation Theorem 表明，一个 MLP 只需要有一个隐藏层，且激活函数满足一些弱条件，就可以在给定的任意精度下近似任何一个在给定紧集上的连续函数，在一些广义形式下，甚至可以近似任何可测函数。ReLU 是隐藏层的标准激活函数，对于回归任务，输出层通常不使用激活函数，而对于分类任务，通常使用 sigmoid 或 softmax 函数。每一个隐藏层的每一个元素都被称为一个神经元，任何层的输出 $a^{(i)} (x) = (f^{(i)} \circ \dots \circ f^{(1)}) (x)$ 都是输入 $x$ 的学习表示。我们用 $\overset{y}{^}$ 表示神经网络的输出 $f (x)$ ，即预测值。

对深度学习而言，假设集 $F$ 的选择是通过选定架构 $a$ 隐式完成的，也就是说，对于具有架构 $a$ 的MLP，其假设集为所有具有该架构的 MLP，记作 $F_{a}$ ，这里面的所有 MLP 只在权重和偏置上有所不同。我们将这些网络的可学习参数收集在扁平化的参数向量 $θ \in R^{d}$ 中，将具有参数 $θ$ 的 MLP 记作 $f_{θ}$ 。

给定一个假设集 $F_{a}$ ，我们现在的目标是学习一个神经网络 $f_{θ} \in F_{a}$ ，即学习参数 $θ$ ，从而减少预期风险

R (f) := E_{Z \sim P_{Z}} [L (f, Z)] = \int_{z \in Z} L (f, z) d P_{Z} (z),

其中 $L : F \times Z \to R$ 是损失函数。我们假设训练数据 $S = {z^{(1)}, \dots, z^{(m)}}$ 和未见过的样本外数据 $z \in Z$ 是独立同分布取样的。

常见损失函数包括多用于分类任务的二元交叉熵损失：

L (f, (x, y)) = - (y \cdot ln (f (x)) + (1 - y) \cdot ln (1 - f (x))),

以及多用于回归任务的均方误差损失/MSE：

L (f, (x, y)) = (y - f (x))^{2},

有时候损失函数会通过正则化项 $Ω (θ)$ 进行增强，比如使用 L2 惩罚，对参数添加项 $β \cdot ∥ θ ∥_{2}^{2}$ ，其中 $β \in R$ 是正则化系数。

一般来讲，背后数据分布 $P_{Z}$ 是未知的，我们使用频率学派的方法，使用基于采样训练数据 $S$ 的经验分布来代替它，并使用经验风险最小化/ERM 作为学习算法来最小化它：

Empirical Risk

给定训练数据 $S = {z^{(1)}, \dots, z^{(m)}}$ 和函数 $f_{θ} \in M (X, Y)$ ，经验风险定义为
$\hat{R}_{S} (f_{θ}) = \frac{1}{m} i = 1 \sum m L (f_{θ}, z^{(i)}),$

ERM Learning Algorithm

给定假设集 $F_{a}$ 和训练数据 $S$ ，经验风险最小化算法 $A_{er m}$ 终止于找到一个（近似于）最小化经验风险的函数 $\hat{f}_{S} \in F_{a}$ ：
$A_{er m} (S) = \hat{f}_{S} \in f \in F_{a} ar g min \hat{R}_{S} (f),$

基于反向传播算法可以高效计算逐点导数，因此我们使用梯度优化算法来完成这个优化问题。反向传播实际上运用了链式法则，目标函数 $L$ 相对于某一层的输入 $a^{(i - 1)}$ 可以通过从相对于这一层的输出 $a^{(i)}$ 的梯度向后计算得到，即

\nabla_{a^{(i - 1)}} L = j \sum (\nabla_{a^{(i - 1)}} a_{j}^{(i)}) \cdot \frac{\partial L}{\partial a _{j}^{(i)}},

将反向传播的过程形成算法如下：

一般情况下，对整个训练集上的数据计算经验风险的代价是昂贵的，更遑论计算梯度了，因此我们更偏向于使用训练集的一个子集来计算梯度与更新参数，这也会带来更快的收敛速度。在每次迭代中，从训练数据中随机抽取大小为 $m^{'} \leq m$ 的一批数据 $S^{'}$ （通常 $m^{'} ≪ m$ ）来进行更新：

Θ^{(k)} := Θ^{(k - 1)} - α_{k} \frac{1}{m ^{'}} z \in S^{'} \sum \nabla_{θ} L (f_{Θ^{(k - 1)}}, z),

这里面 $α_{k}$ 是第 $k$ 次迭代中的步长或学习率。学习率通常在训练过程中衰减以帮助收敛。这个操作其实就是小批量随机梯度下降/minibatch SGD，在算法上形式化如下：

随机梯度下降虽然简单，具有随机性，并且损失函数高度非凸，但是性质很好，比如可以引入随机波动，从而能够逃离鞍点，其收敛性也可以有一定的保障。现在我们更经常使用 Adam 等引入了动量方法以及自适应梯度缩放的算法。

参数 $θ$ 的初始化对于收敛也十分重要，偏重一般初始化为 0，权重则使用很多策略，随机初始化为接近于 0 的值。

最后，无论损失函数的非凸性质如何，如果神经网络足够大，架构设置合理，局部最小值就不被认为是一个问题。从实践来讲，神经网络的训练是一个迭代过程，我们交替选择网络架构以及学习算法的超参数，近似最小化这组超参数的经验风险，从而找到合适的超参数集合，最大化泛化性能。

3. Theoretical Foundations of PG

3.1 Policy Gradient Theorem

给定一个 MDP $M = (S, A, P, γ, p_{0})$ ，考虑一个参数化的、几乎处处可微的策略 $π_{θ}$ ，以及以下目标函数 $J$ ，用于最大化预期的 episodic 回报：

J (θ) = E_{S_{0} \sim p_{0}, π_{θ}} [G_{0}] = E_{S_{0} \sim p_{0}} [E_{π_{θ}} [G_{t} ∣ S_{t} = S_{0}]] = E_{S_{0} \sim p_{0}} [V_{π_{θ}} (S_{0})],

策略梯度算法的思想是通过对参数 $θ$ 进行梯度上升来最大化目标函数 $J (θ)$ ，因此我们需要求出梯度 $\nabla_{θ} J (θ)$ 。但是从先验上，右侧的期望 $E_{S_{0} \sim p_{0}, π_{θ}} [G_{0}]$ 同时收到策略 $π_{θ}$ 变化影响，这是因为状态分布 $d^{π}$ 自然会随着策略变化而变化。

策略梯度定理的意义就在于其解决了这个难题，给出了一个便于采样的梯度表达式，表达式的形式并不依赖于状态分布 $d^{π}$ 的导数。

Policy Gradient Theorem

对于一个给定的 MDP，策略 $π_{θ}$ 关于 $θ$ 可微且 $\nabla_{θ} π_{θ}$ 有界，动作价值函数 $Q^{π_{θ}}$ 关于 $θ$ 也可微且对于所有 $s \in S$ 和 $a \in A$ ， $\nabla_{θ} Q^{π_{θ}}$ 有界。那么存在一个常数 $η$ ，使得
$\nabla_{θ} J (θ) = η E_{S \sim d^{π_{θ}}, A \sim π_{θ}} [Q_{π_{θ}} (S, A) \nabla_{θ} ln π_{θ} (A ∣ S)] .$

接下来部分是该定理的证明，我们遵循 Sutton & Barto: Reinforcement Learning, 2nd Edition 的证明，并且将其扩展到了连续的状态与动作空间，在证明中，我们省略了所有的下标 $θ$ ，但是需要知道的是，这里面的策略 $π$ 和所有的梯度 $\nabla$ 都依赖于参数 $θ$ 。

首先处理目标函数：我们显示写出对于起始状态的期望，使用价值函数和动作价值函数的关系：

\nabla J (θ) = \nabla E_{S \sim p_{0}} [V_{π} (S)] = \nabla \int_{s \in S} p_{0} (s) V_{π} (s) d s = \nabla \int_{s \in S} p_{0} (s) \int_{a \in A} π (a ∣ s) Q_{π} (s, a) d a d s = \int_{s \in S} p_{0} (s) [\int_{a \in A} (\nabla π (a ∣ s)) Q_{π} (s, a) d a + \int_{a \in A} π (a ∣ s) \nabla Q_{π} (s, a) d a] d s . (1)

这里使用了 Leibniz 积分法则，交换了积分和微分的顺序，然后再使用乘法法则。这里使用定理的条件成立，因为对于任何 $s \in S$ ， $π (\cdot ∣ s) Q_{π} (s, \cdot)$ 是可积的，并且对于所有 $s \in S$ 和 $a \in A$ ，其偏导数存在且有界，因为 $π$ 和 $Q_{π}$ 是有界的，且根据假设， $\nabla Q_{π}$ 和 $\nabla π$ 存在且有界。

下面处理动作价值函数的梯度，注意到一件本质的事情：在给定某个动作 $a$ 后，实际的回报 $r$ 和环境的状态转移并不依赖于策略 $π$ ，因此我们可以将其视为常数，因此就有：

\nabla Q_{π} (s, a) = \nabla \int_{s^{'} \in S} \int_{r \in R} P (s^{'}, r ∣ s, a) (r + V_{π} (s^{'})) d r d s^{'} = \int_{s^{'} \in S} \int_{r \in R} P (s^{'}, r ∣ s, a) \nabla V_{π} (s^{'}) d r d s^{'} = \int_{s^{'} \in S} \int_{r \in R} P (s^{'}, r ∣ s, a) \nabla V_{π} (s^{'}) d r d s^{'} = \int_{s^{'} \in S} [\int_{r \in R} P (s^{'}, r ∣ s, a) d r] \nabla V_{π} (s^{'}) d s^{'} = \int_{s^{'} \in S} P (s^{'} ∣ s, a) \nabla V_{π} (s^{'}) d s^{'} (2)

然后处理价值函数的梯度，对所有的 $s \in S$ ，有

\nabla V_{π} (s) = \nabla \int_{a \in A} π (a ∣ s) Q_{π} (s, a) d a = \int_{a \in A} (\nabla π (a ∣ s)) Q_{π} (s, a) d a + \int_{a \in A} π (a ∣ s) \nabla Q_{π} (s, a) d a (3)

这个式子和 (1) 的内层表达式是一致的，我们可以使用 (2) 和 (3) 来将 (1) 转换为递归形式，然后展开该递归，以得到一个显示形式。我们定义下符号：

ϕ (s) := \int_{a \in A} (\nabla π (a ∣ s)) Q_{π} (s, a) d a (4)

对 (1) 使用 (3) 和 (2)，并重新排列积分，得到

\nabla J (θ) = \int_{s \in S} p_{0} (s) [\int_{a \in A} (\nabla π (a ∣ s)) Q_{π} (s, a) d a + \int_{a \in A} π (a ∣ s) \nabla Q_{π} (s, a) d a] d s = \int_{s \in S} p_{0} (s) (ϕ (s) + \int_{a \in A} π (a ∣ s) \nabla Q_{π} (s, a) d a) d s = \int_{s \in S} p_{0} (s) (ϕ (s) + \int_{a \in A} π (a ∣ s) \int_{s^{'} \in S} P (s^{'} ∣ s, a) \nabla V_{π} (s^{'}) d s^{'} d a) d s = \int_{s \in S} p_{0} (s) (ϕ (s) + \int_{s^{'} \in S} \int_{a \in A} π (a ∣ s) P (s^{'} ∣ s, a) d a \nabla V_{π} (s^{'}) d s^{'}) d s (5)

这里最后一步使用了 Fubini 定理交换了积分顺序。这是因为 $\nabla V_{π}$ 有界，且 $π (\cdot ∣ s) P (\cdot ∣ s, \cdot)$ 是 $S \times A$ 上的概率测度，因此 $∣ π (\cdot ∣ s) P (\cdot ∣ s, \cdot) \nabla V_{π} ∣$ 在乘积空间 $S \times A$ 上是可积的。

为了在时间上展开公式 (5)，我们引入多步转移概率的符号。设 $ρ_{π} (s \to s^{'}, k)$ 为在策略 $π$ 下经过 $k$ 步后从状态 $s$ 转移到 $s^{'}$ 的概率。我们显然有

ρ_{π} (s \to s^{'}, 0) ρ_{π} (s \to s^{'}, 1) ρ_{π} (s \to s^{'}, k + 1) := {10 if s = s^{'} else := \int_{a \in A} π (a ∣ s) P (s^{'} ∣ s, a) d a := \int_{s^{'} \in S} ρ_{π} (s \to s^{'}, k) ρ_{π} (s^{'} \to s^{''}, 1) d s^{'}

迭代地代入 (5)，不断使用 Fubini 定理：

\nabla J (θ) = \int_{s \in S} p_{0} (s) (ϕ (s) + \int_{s^{'} \in S} \int_{a \in A} π (a ∣ s) P (s^{'} ∣ s, a) d a \nabla V_{π} (s^{'}) d s^{'}) d s = \int_{s \in S} p_{0} (s) (ϕ (s) + \int_{s^{'} \in S} ρ_{π} (s \to s^{'}, 1) \nabla V_{π} (s^{'}) d s^{'}) d s = \int_{s \in S} p_{0} (s) {ϕ (s) + \int_{s^{'} \in S} ρ_{π} (s \to s^{'}, 1) [ϕ (s^{'}) + \int_{a \in A} π (a ∣ s^{'}) \nabla Q_{π} (s^{'}, a) d a] d s^{'}} d s = \int_{s \in S} p_{0} (s) {ϕ (s) + \int_{s^{'} \in S} ρ_{π} (s \to s^{'}, 1) [ϕ (s^{'}) + \int_{s^{''} \in S} ρ_{π} (s^{'} \to s^{''}, 1) \nabla V_{π} (s^{''}) d s^{''}] d s^{'}} d s = \int_{s \in S} p_{0} (s) {ϕ (s) + \int_{s^{'} \in S} ρ_{π} (s \to s^{'}, 1) ϕ (s^{'}) d s^{'} + \int_{s^{''} \in S} (\int_{s^{'} \in S} ρ_{π} (s \to s^{'}, 1) ρ_{π} (s^{'} \to s^{''}, 1) d s^{'}) \nabla V_{π} (s^{''}) d s^{''}} d s = \int_{s \in S} p_{0} (s) {ϕ (s) + \int_{s^{'} \in S} ρ_{π} (s \to s^{'}, 1) ϕ (s^{'}) d s^{'} + \int_{s^{''} \in S} ρ_{π} (s \to s^{''}, 2) \nabla V_{π} (s^{''}) d s^{''}} d s = \int_{s \in S} p_{0} (s) {k = 0 \sum t - 1 \int_{s^{'} \in S} ρ_{π} (s \to s^{'}, k) ϕ (s^{'}) d s^{'} + \int_{s^{'} \in S} ρ_{π} (s \to s^{'}, t) \nabla V_{π} (s^{'}) d s^{'}} d s = \int_{s \in S} p_{0} (s) \int_{s^{'} \in S} t = 0 \sum T ρ_{π} (s \to s^{'}, t) ϕ (s^{'}) d s^{'} d s

令 $η_{s} (s^{'}) := \sum_{t = 0}^{T} ρ^{π} (s \to s^{'}, t)$ ，考虑 $η_{s} (s^{'})$ 的含义，其代表了在策略 $π$ 下，从状态 $s$ 出发，经过任意步后到达状态 $s^{'}$ 的概率总和。对起始状态分布求积分，并且进行归一化（这是因为很有可能这不是一个概率分布），可以注意到

d^{π} (s^{'}) = \int_{s \in S} p_{0} (s) η_{s} (s^{'}) d s / \int_{s^{''} \in S} \int_{s \in S} p_{0} (s) η_{s} (s^{''}) d s d s^{''}

重新排列积分顺序可以得到：

\nabla_{θ} J (θ) = \int_{s \in S} p_{0} (s) \int_{s^{'} \in S} t = 0 \sum T ρ_{π} (s \to s^{'}, t) ϕ (s^{'}) d s^{'} d s = \int_{s^{'} \in S} \int_{s \in S} p_{0} (s) η_{s} (s^{'}) ϕ (s^{'}) d s d s^{'} = \frac{\int _{s^{''} \in S} \int _{s \in S} p _{0} ( s ) η _{s} ( s ^{''} ) d s d s ^{''}}{\int _{s^{''} \in S} \int _{s \in S} p _{0} ( s ) η _{s} ( s ^{''} ) d s d s ^{''}} \int_{s^{'} \in S} \int_{s \in S} p_{0} (s) η_{s} (s^{'}) ϕ (s^{'}) d s d s^{'} = \int_{s^{''} \in S} \int_{s \in S} p_{0} (s) η_{s} (s^{''}) d s d s^{''} \cdot \int_{s^{'} \in S} \frac{\int _{s \in S} p _{0} ( s ) η _{s} ( s ^{'} ) d s}{\int _{s^{''} \in S} \int _{s \in S} p _{0} ( s ) η _{s} ( s ^{''} ) d s d s ^{''}} ϕ (s^{'}) d s^{'} = \int_{s \in S} p_{0} (s) \int_{s^{''} \in S} η_{s} (s^{''}) d s^{''} d s \cdot \int_{s^{'} \in S} d^{π} (s^{'}) ϕ (s^{'}) d s^{'}

接下来就可以直接得出策略梯度定理的规范形式了：令常数 $η$ 定义如下：

η := \int_{s \in S} p_{0} (s) \int_{s^{''} \in S} η_{s} (s^{''}) d s^{''} d s

因此

\nabla J (θ) = \int_{s \in S} p_{0} (s) \int_{s^{''} \in S} η_{s} (s^{''}) d s^{''} d s \cdot \int_{s^{'} \in S} d^{π} (s^{'}) ϕ (s^{'}) d s^{'} = η \int_{s^{'} \in S} d^{π} (s^{'}) \int_{a \in A} (\nabla π (a ∣ s^{'})) Q_{π} (s^{'}, a) d a d s^{'} = η \int_{s^{'} \in S} d^{π} (s^{'}) \int_{a \in A} π (a ∣ s^{'}) \frac{\nabla π ( a ∣ s ^{'} )}{π ( a ∣ s ^{'} )} Q_{π} (s^{'}, a) d a d s^{'} = η \int_{s^{'} \in S} d^{π} (s^{'}) \int_{a \in A} π (a ∣ s^{'}) (\nabla ln π (a ∣ s^{'})) Q_{π} (s^{'}, a) d a d s^{'} = η E_{S \sim d^{π}} [E_{A \sim π} [Q_{π} (S, A) \nabla ln π (A ∣ S)]] .

这就完成了证明。

策略梯度定理给出了策略梯度的显式形式，我们可以从中对梯度进行采样。这就使得我们可以使用基于梯度的优化方法来直接优化策略，也构成了之后的策略梯度算法的基础。

最后我们给出对策略梯度公式的进一步说明，首先是参数 $η$ 的含义，简而言之，它是策略 $π$ 下的平均 episode 长度。

η = \int_{s \in S} p_{0} (s) \int_{s^{'} \in S} η_{s} (s^{'}) d s^{'} d s = \int_{s \in S} p_{0} (s) \int_{s^{'} \in S} t = 0 \sum T ρ_{π} (s \to s^{'}, t) d s^{'} d s = E_{S \sim p_{0}} [t = 0 \sum T \int_{s^{'} \in S} ρ_{π} (S \to s^{'}, t) d s^{'}],

其次，这个参数 $η$ 在优化算法的梯度更新中并不那么重要，由于我们使用基于梯度的方法，只要采样得到的梯度与真实梯度成比例即可（这是因为比例常数可以被学习率吸收），因此常数 $η$ 通常被省略，我们也通常将其写成

\nabla_{θ} J (θ) \propto E_{S \sim d^{π_{θ}}, A \sim π_{θ}} [Q_{π_{θ}} (S, A) \nabla_{θ} ln π_{θ} (A ∣ S)] . (6)

右侧所有项都是已知的或者可以通过采样来估计，这就允许我们设计多样的策略梯度算法。

3.2 Value Function Estimation

在实践中，当直接对公式 (6) 进行采样时，策略梯度的估计可能会引入非常多的噪声，因此，策略梯度算法的一个主要实际挑战是引入措施来降低梯度的方差。一种技术就是在对动作价值函数 $Q_{π}$ 进行采样估计的时候使用基线/Baseline，我们这里将证明，使用适当选择的基线不会使估计产生偏差，但可以大大降低采样梯度的方差。

令 $\hat{Q} (s, a)$ 为 $Q_{π} (s, a)$ 的采样估计，假设 $E [\hat{Q} (s, a)] = Q_{π} (s, a)$ 。我们可以通过减掉一个基线 $b : S \to R$ 来构建一个新的估计 $\hat{Q}_{b} (s, a) = \hat{Q} (s, a) - b (s)$ 。这里对 $b$ 的唯一要求就是它不依赖于动作 $a$ ，除此之外其可以依赖于状态 $s$ ，甚至可以是一个随机变量。

我们采样估计的梯度 $\nabla_{θ} J (θ)$ 变为

\hat{\nabla}_{θ} J (θ) = \nabla_{θ} ln π_{θ} (a ∣ s) [\hat{Q} (s, a) - b (s)] .

对于策略 $π$ 求期望，得到

E_{π} [\hat{\nabla}_{θ} J (θ)] = E_{π} [\nabla_{θ} ln π_{θ} (A ∣ S) (\hat{Q} (S, A) - b (S))] = E_{π} [\nabla_{θ} ln π_{θ} (A ∣ S) \hat{Q} (S, A)] - E_{π} [\nabla_{θ} ln π_{θ} (A ∣ S) b (S)]

下面我们证明第二部分其实就是 0，使用 Leibniz 积分法则，我们有

E_{S \sim d^{π}, A \sim π} [\nabla_{θ} ln π_{θ} (A ∣ S) b (S)] = \int_{s \in S} d^{π} (s) \int_{a \in A} π_{θ} (a ∣ s) \nabla_{θ} ln π_{θ} (a ∣ s) b (s) d a d s = \int_{s \in S} d^{π} (s) b (s) \int_{a \in A} π_{θ} (a ∣ s) \nabla_{θ} ln π_{θ} (a ∣ s) d a d s = \int_{s \in S} d^{π} (s) b (s) \int_{a \in A} π_{θ} (a ∣ s) \frac{\nabla _{θ} π _{θ} ( a ∣ s )}{π _{θ} ( a ∣ s )} d a d s = \int_{s \in S} d^{π} (s) b (s) \nabla_{θ} \int_{a \in A} π_{θ} (a ∣ s) d a d s = \int_{s \in S} d^{π} (s) b (s) \nabla_{θ} 1 d s = 0

因此，在对 $Q_{π}$ 的估计上减掉一个和动作无关的 Baseline $b$ 并不会给梯度估计造成任何的偏差，High-Dimensional Continuous Control Using Generalized Advantage Estimation 这篇文章将上述结果进行了推广，表明了即使基线依赖于当前和所有后续状态，这个结果依然成立。

下面我们简单分析减去基线 $b$ 可以降低采样梯度的方差。使用公式 $Var [X] = E [X^{2}] - E [X]^{2}$ ，由于上面已经证明了 $E [X]^{2}$ 和基线 $b$ 无关，因此我们只需要分析 $E [X^{2}]$ 的变化。我们有

b ar g min Var_{π} [\nabla_{θ} ln π_{θ} (A ∣ S) [\hat{Q} (S, A) - b (S)]] = b ar g min E_{π} [(\nabla_{θ} ln π_{θ} (A ∣ S) [\hat{Q} (S, A) - b (S)])^{2}] \approx b ar g min [E_{π} [\nabla_{θ} ln π_{θ} (A ∣ S)^{2}] \cdot E_{π} [\hat{Q} (S, A) - b (S)^{2}]],

上面的近似基于这两个项的独立性的假设。在这个近似下，我们可以通过最小化 $E_{π} [\hat{Q} (S, A) - b (S)]^{2}$ 来最小化采样梯度的方差。这是一个常见的最小二乘问题，只需要选择 $b (s) = E_{π} [\hat{Q} (s, A)]$ 即可。这表明选择一个恰当的 Baseline 可以显著降低梯度的方差。使用这个 Baseline，我们可以按照如下方式计算采样状态和动作的梯度

\nabla_{θ} ln π_{θ} (a ∣ s) [Q_{π} (s, a) - E_{A \sim π_{θ}} [Q_{π} (s, A)]] = \nabla_{θ} ln π_{θ} (a ∣ s) [Q_{π} (s, a) - V_{π} (s)] = \nabla_{θ} ln π_{θ} (a ∣ s) A_{π} (s, a) .

这种选择的 Baseline 产生了梯度的最低可能方差。在实践中，优势函数必须也被估计，学习这种估计通常会引入偏差 :-) 这就涉及到了 Bias-Variance 权衡的问题。

3.3 Importace Sampling

Importance Sampling 是一种基于从一个分布中采样来估计另一个分布下的期望的技术。在 Off-Policy 强化学习中非常重要。在某些 On-Policy 的强化学习算法中，由于策略在处理完其采样的所有数据之前就更新了，因此这些数据就变得微微偏离 On-Policy 了，因此 Importance Sampling 也有了用武之地。我们简单介绍 Importance Sampling，可以参见我未完成的笔记。

给定一个行为策略 $β$ ，我们想要估计目标策略 $π$ 的价值函数 $V_{π}$ 。一般来讲都会有 $V_{β} (s) = E_{β} [G_{t} ∣ S_{t} = s] \neq = V_{π} (s)$ 。为了使用行为策略估计目标策略的价值函数，我们需要计算在任何策略 $π$ 下的轨迹 $(a_{t}, s_{t + 1}, a_{t + 1}, \dots, a_{T - 1}, s_{T})$ 的出现概率：

k = t \prod T - 1 π (a_{k} ∣ s_{k}) P (s_{k + 1} ∣ s_{k}, a_{k}) .

这就可以定义 Importance Sampling Ratio：

Importance Sampling Ratio

给定目标策略 $π$ ，行为策略 $β$ 和由 $β$ 生成的轨迹 $τ = (a_{t}, s_{t + 1}, a_{t + 1}, \dots, s_{T})$ ，Importance Sampling Ratio 定义为
$ρ_{t : T - 1} := \frac{\prod _{k = t}^{T - 1} π ( a _{k} ∣ s _{k} ) P ( s _{k + 1} ∣ s _{k} , a _{k} )}{\prod _{k = t}^{T - 1} β ( a _{k} ∣ s _{k} ) P ( s _{k + 1} ∣ s _{k} , a _{k} )} = \frac{\prod _{k = t}^{T - 1} π ( a _{k} ∣ s _{k} )}{\prod _{k = t}^{T - 1} β ( a _{k} ∣ s _{k} )} .$

设 $T$ 为可能轨迹的集合，我们通过将由行为策略 $β$ 生成的轨迹 $τ \in T$ 的回报与 Importance Sampling Ratio $ρ$ 相乘，我们得到

E_{β} [ρ_{t : T - 1} G_{t} ∣ S_{t} = s] = E_{β} [ρ_{t : T - 1} G (τ) ∣ S_{t} = s] = τ \in T \sum ρ_{t : T - 1} G (τ) k = t \prod T - 1 β (a_{k} ∣ s_{k}) P (s_{k + 1} ∣ s_{k}, a_{k}) = τ \in T \sum \frac{\prod _{k = t}^{T - 1} π ( a _{k} ∣ s _{k} )}{\prod _{k = t}^{T - 1} β ( a _{k} ∣ s _{k} )} G (τ) k = t \prod T - 1 β (a_{k} ∣ s_{k}) P (s_{k + 1} ∣ s_{k}, a_{k}) = τ \in T \sum G (τ) k = t \prod T - 1 π (a_{k} ∣ s_{k}) P (s_{k + 1} ∣ s_{k}, a_{k}) = E_{π} [G_{t} ∣ S_{t} = s] = V_{π} (s) .

这就使用了重要度采样比进行了矫正。直觉比较简单，为了评估目标策略 $π$ ，我们希望更多地权衡在 $π$ 更容易发生的回报，更少地权衡在 $β$ 更容易发生的回报。作为上述推导的扩展，我们还得到了逐决策重要度采样比率 $ρ := \frac{π ( a ∣ s )}{β ( a ∣ s )}$ 。

使用 Importance Sampling，我们可以推导出带有行为策略 $β$ 的 Off-Policy 设置中，目标策略 $π_{θ}$ 的以下近似策略梯度：

\nabla_{θ} J (θ) \approx η E_{S \sim d^{β}, A \sim β} [\frac{π _{θ} ( A ∣ S )}{β ( A ∣ S )} Q_{π_{θ}} (S, A) \nabla_{θ} ln π_{θ} (A ∣ S)] .

Paper List

Explorer

PG-Guide

The Definitive Guide to Policy Gradients

1. Introduction

2. Preliminaries

2.1 RL Basics

2.2 On-Policy Policy Gradient

2.3 Deep Learning Basics

3. Theoretical Foundations of PG

3.1 Policy Gradient Theorem

3.2 Value Function Estimation

3.3 Importace Sampling

4. Policy Gradient Algorithms

4.1 REINFORCE

4.2 A3C

4.3 TRPO

4.4 PPO

4.5 V-MPO

4.6 Comparing Design Choices

5. Convergence Results

5.1 Literature Overview

5.2 Mirror Learning

Table of Contents

Backlinks