Abstract

1. Introduction

2. Preliminaries

考虑一个 Infinite-Horizon 的带折扣 MDP ,其中 是有限状态集, 是有限动作集, 是转移概率分布, 是奖励函数, 是初始状态 的分布,并且 是折扣因子。

对于策略 ,其期望折扣奖励定义为

这里 生成的一个无限长的轨迹,类似可以定义价值函数 、动作-价值函数 和优势函数 。可以证明,对于任意两个策略 ,我们可以使用优势函数估计两个策略期望回报的差距:

Proof

注意到 。我们可以有下面估计

如果定义 为状态 相对于 的预期优势:

那么,式 (1) 可以写成如下形式:

如果给出一个(未归一化的)折扣状态访问频率 ,我们就可以重写期望

如果对于一个策略更新 在每个状态 处都具有非负的期望优势 ,那么这个策略更新就一定可以保证可以提升策略性能 ,就算这个期望更新在所有状态都为零也可以保持策略性能恒定。这就可以保证经典的策略迭代成立了,如果使用确定性策略 ,且至少存在一个状态-动作对 使得 ,那么策略就一定会提升,否则算法就已经收敛到最优策略了。

但是,在近似情形/Approximate Setting 下,由于目标和更新都不是精确的,通常会出现估计误差和近似误差,要么是通过采样/时序差分得到的 不精确,要么是 不是贪心的,或者两者兼而有之,因此对某些状态 来说,有可能出现 ,这是不可避免的。因此我们需要考虑使用策略梯度。

另一方面,式 (3) 中的 的依赖过于复杂,如果直接使用策略梯度,那就必须要对 进行求导,还得对新分布采样,这就极其复杂。因此我们将 (3) 内的 冻结为旧分布 ,忽略由于策略变化而引起的状态访问密度的变化,从而切断上述复杂依赖,得到 的局部近似

很容易知道,如果 是一个参数的策略, 可微,其实 在旧点处是一阶等价的,也就是对于任意的参数 ,都有

Supplementary

第一个是显然的,第二个可以直接证明:

这就表明,可以改善 的一个充分小的更新

Appendix: Conservative Policy Iteration