1. Introduction
2. Preliminaries
考虑一个 Infinite-Horizon 的带折扣 MDP (S,A,P,r,ρ0,γ),其中 S 是有限状态集,A 是有限动作集,P:S×A×S→R 是转移概率分布,r:S→R 是奖励函数,ρ0:S→R 是初始状态 s0 的分布,并且 γ∈(0,1) 是折扣因子。
对于策略 π:S×A→[0,1],其期望折扣奖励定义为
η(π)=Es0,a0,…[t=0∑∞γtr(st)]
这里 s0,a0,… 为 π 生成的一个无限长的轨迹,类似可以定义价值函数 Vπ、动作-价值函数 Qπ 和优势函数 Aπ。可以证明,对于任意两个策略 π 和 π~,我们可以使用优势函数估计两个策略期望回报的差距:
η(π~)−η(π)=Eτ∼π~[t=0∑∞γtAπ(st,at)](1)
注意到 Aπ(s,a)=Es′∼P(⋅∣s,a)[r(s)+γVπ(s′)−Vπ(s)]。我们可以有下面估计
Eτ∼π~[t=0∑∞γtAπ(st,at)]=Eτ∼π~[t=0∑∞γt(r(st)+γVπ(st+1)−Vπ(st))]=Eτ∼π~[−Vπ(s0)+t=0∑∞γtr(st)]=−Es0[Vπ(s0)]+Eτ∼π~[t=0∑∞γtr(st)]=−η(π)+η(π~)
如果定义 Aˉ(s) 为状态 s 下 π~ 相对于 π 的预期优势:
Aˉ(s)=Ea∼π~(⋅∣s)[Aπ(s,a)].
那么,式 (1) 可以写成如下形式:
η(π~)=η(π)+Eτ∼π~[t=0∑∞γtAˉ(st)](2)
如果给出一个(未归一化的)折扣状态访问频率 ρπ,我们就可以重写期望 Eτ∼π~[∑γtAπ(st,at)]:
ρπ(s)η(π~)=P(s0=s)+γP(s1=s)+γ2P(s2=s)+…,=η(π)+t=0∑∞s∑P(st=s∣π~)a∑π~(a∣s)γtAπ(s,a)=η(π)+s∑t=0∑∞γtP(st=s∣π~)a∑π~(a∣s)Aπ(s,a)=η(π)+s∑ρπ~(s)a∑π~(a∣s)Aπ(s,a).(3)
如果对于一个策略更新 π→π~,π~ 在每个状态 s 处都具有非负的期望优势 ∑aπ~(a∣s)Aπ(s,a)≥0,那么这个策略更新就一定可以保证可以提升策略性能 η,就算这个期望更新在所有状态都为零也可以保持策略性能恒定。这就可以保证经典的策略迭代成立了,如果使用确定性策略 π~(s)=argmaxaAπ(s,a),且至少存在一个状态-动作对 (s,a) 使得 Aπ(s,a)>0 且 P(s∣π~)>0,那么策略就一定会提升,否则算法就已经收敛到最优策略了。
但是,在近似情形/Approximate Setting 下,由于目标和更新都不是精确的,通常会出现估计误差和近似误差,要么是通过采样/时序差分得到的 Aπ 不精确,要么是 π~ 不是贪心的,或者两者兼而有之,因此对某些状态 s 来说,有可能出现 ∑aπ~(a∣s)Aπ(s,a)<0,这是不可避免的。因此我们需要考虑使用策略梯度。
另一方面,式 (3) 中的 ρπ~ 对 π~ 的依赖过于复杂,如果直接使用策略梯度,那就必须要对 ρπ~ 进行求导,还得对新分布采样,这就极其复杂。因此我们将 (3) 内的 ρπ~ 冻结为旧分布 ρπ,忽略由于策略变化而引起的状态访问密度的变化,从而切断上述复杂依赖,得到 η 的局部近似
Lπ(π~)=η(π)+s∑ρπ(s)a∑π~(a∣s)Aπ(s,a).(4)
很容易知道,如果 πθ 是一个参数的策略,πθ(a∣s) 可微,其实 Lπ 和 η 在旧点处是一阶等价的,也就是对于任意的参数 θ0,都有
Lπθ0(πθ0)∇θLπθ0(πθ)θ=θ0=η(πθ0),=∇θη(πθ)∣θ=θ0.(5)
第一个是显然的,第二个可以直接证明:
∇θLπθ0(πθ)∇θη(πθ)=∇θ(η(πθ0)+s∑ρπθ0(s)a∑πθ(a∣s)Aπθ0(s,a))=s∑ρπθ0(s)a∑∇θπθ(a∣s)Aπθ0(s,a)=∇θ(η(πθ0)+s∑ρπθ(s)a∑πθ(a∣s)Aπθ0(s,a))=s∑(∇θρπθ(s)a∑πθ(a∣s)Aπθ0(s,a)+ρπθ(s)a∑∇θπθ(a∣s)Aπθ0(s,a))=s∑ρπθ(s)a∑∇θπθ(a∣s)Aπθ0(s,a)
这就表明,可以改善 Lπθold 的一个充分小的更新 πθ0→π~
Appendix: Conservative Policy Iteration