Contributions
本文研究多 Oracle 交互式模仿学习/Interactive Imitation Learning 问题:当学习者面对多个次优黑盒专家策略时,如何系统性地整合它们的领域知识以学到更好的策略。核心贡献有三:(1)提出最大聚合基线/Max-aggregated Baseline ,即在每个状态取所有 Oracle 价值函数的逐状态最大值,作为多 Oracle IL 的自然性能基准;(2)设计 MAMBA(Max-Aggregation of Multiple BAselines)算法,通过将策略优化规约到在线学习/Online Learning,并引入类似广义优势估计/Generalized Advantage Estimation/GAE 的梯度估计器,实现对 的竞争性策略改进;(3)引入超参数 在单步策略改进(纯 IL)和完整回报优化(纯 RL)之间插值,理论证明更大的 允许更大的策略改进幅度但增加方差,并提供了基于遗憾/Regret 的性能保证。实验在四个连续控制任务上表明 MAMBA 能有效利用多个弱 Oracle 来加速策略优化,同时在单 Oracle 情形下也优于现有 IL 基线 AggreVaTeD。
本文的理论和算法均假设 Oracle 的价值函数可以通过 Monte-Carlo Roll-out 被合理近似,但在多 Oracle 情形下无法获得 的无偏估计(因为不知道每个状态下哪个 Oracle 最优),必须依赖函数近似器。当 Oracle 数量较多或状态空间维度较高时,学习多个价值函数近似器的开销显著增加,论文实验中也观察到了这一可扩展性瓶颈。此外,Oracle 选择采用均匀随机策略,未利用已有信息主动选择更优的 Oracle,这一问题在后续工作 MAPS 中被改进。
1. Introduction
强化学习/Reinforcement Learning/RL 在机器人、推荐系统等领域有广泛应用前景,但其核心瓶颈在于需要大量试错探索才能发现好的策略。模仿学习/Imitation Learning/IL 通过引入 Oracle 策略(专家演示)来引导探索,可以显著降低样本复杂度。在单 Oracle 设定下,Oracle 的回报提供了一个天然的性能基准——学习者的目标是匹配或超越这个基准,大多数现有 IL 技术都建立在这一假设之上。
然而在实际应用中,获得单个高质量专家策略往往很困难。更常见的情况是:存在多个次优的专家策略,每个在不同场景下各有优势。例如在负载均衡任务中,有多种人工设计的启发式策略;在自动驾驶中,PID 控制器和人类驾驶员各有所长。此时学习者面临的核心挑战是:来自不同 Oracle 的演示可能相互冲突,没有任何单个 Oracle 在所有状态下都优于其他 Oracle,且每个 Oracle 的质量事先未知。
虽然 InfoGAIL、AC-Teach、OIL 等工作已经开始研究多 Oracle 学习,但它们都回避了两个根本性问题:
- 性能基准:在多 Oracle 设定下,什么是衡量学习者性能的合理基准?在单 Oracle IL 中,这个基准就是 Oracle 的回报,但多 Oracle 情形下并不存在一个显然的类比。
- 系统性整合:是否存在一种有原则的方法,将多个次优 Oracle 缝合/Stitch 成一个更强的基线,并允许在此基础上进一步改进?
本文对这两个问题给出了肯定的回答。第一,作者提出 作为多 Oracle IL 的自然基准,它在每个状态下都不低于任何单个 Oracle 的价值。第二,作者设计了 MAMBA 算法,通过 Roll-in/Roll-out 交互范式收集数据,利用 GAE 风格的梯度估计器进行策略优化,并证明了基于遗憾的理论保证。MAMBA 实质上是单 Oracle IL 算法 AggreVaTeD 到多 Oracle 情形的推广,同时通过 参数在 IL 和 RL 之间建立了连续过渡。
2. Problem Setup
2.1 Episodic MDP
考虑有限时域马尔可夫决策过程/Markov Decision Process/MDP,其状态空间为 ,动作空间为 ,初始状态分布为 ,转移概率为 ,奖励函数为 ,时间视界为 。、 和 均固定但未知。为了紧凑地处理非平稳性,将状态空间构造为扩充状态空间 ,其中 为基础状态空间。这一技巧将时间信息编码进状态,使得转移和奖励可以统一用不含时间下标的形式书写。
给定策略类 ,目标是找到 最大化 步回报:
其中 为从 出发按 生成的轨迹 的分布。
2.2 State Distribution and Value Functions
记 为从 出发运行 在时刻 的状态分布,定义平均状态分布/Average State Distribution ,则 。
本文引入了一个关键的推广:给定满足 的任意函数 ,定义关于 的广义优势函数/Generalized Advantage Function:
当 时退化为标准优势函数 。 在策略 下的期望优势记为 。
广义优势函数的设计意图
标准优势函数 衡量的是动作 相对于策略 自身价值的优势。而 衡量的是动作 相对于任意基线价值函数 的优势。后续作者会将 替换为 (多 Oracle 最大价值包络),这样 就意味着策略 在状态 下的表现优于所有 Oracle 的”最优拼接”。
Definition 1 (可改进性/Improvability)
若 ,则称基线价值函数 相对于策略 是可改进的/Improvable。
2.3 Interactive Imitation Learning with Multiple Oracles
学习者可访问一组 Oracle 策略 ,在训练期间通过滚入-滚出/Roll-in-Roll-out/RIRO 范式与 Oracle 交互:每个回合中,学习者从 采样的初始状态出发,先运行自己的策略 至随机切换时间 (Roll-in),然后请求某个 Oracle 接管并完成剩余轨迹(Roll-out),最后记录完整轨迹及奖励。
这一范式有两个重要特点:(1)不需要观测 Oracle 的动作分布,只需看到执行后的轨迹和奖励;(2)由于可以获得奖励信号,学习者有潜力超越所有 Oracle。
RIRO 范式的作用
Roll-in 阶段使用学习者自身策略,确保收集到的数据覆盖学习者实际会访问的状态分布,缓解了行为克隆/Behavior Cloning 中的分布偏移/Distribution Shift 问题。Roll-out 阶段由 Oracle 接管,提供了从当前状态出发的价值估计( 值),作为策略改进的信号。
3. Algorithm
3.1 Conceptual Framework: Max-aggregation with Policy Improvement
在设计实际算法之前,本文首先建立了一个概念框架,回答”多 Oracle 的合理基准是什么”这一核心问题。
朴素方案及其失败。一种直接的做法是将多个 Oracle 合并为一个(如固定权重混合或动作概率相乘),但前者在存在差 Oracle 时表现很差,后者无法处理确定性策略。另一种做法是对每个 Oracle 分别运行单 Oracle IL 算法后选择最优结果,但附录 A 给出了反例:两个回报相同的 Oracle,选择其中任一个都是次优的,而在它们之间切换可以获得更高回报。
Max-following 策略 。如果已知每个 Oracle 的价值函数 ,一个自然的想法是在每个状态跟随价值最高的 Oracle:
可以证明 ,即 在每个状态都不差于最优 Oracle。但 有一个退化问题:当某个 Oracle 在所有状态都占优时, 退化为该 Oracle 本身,而我们已知通过单步策略改进可以构造更好的策略。
Max-aggregation 策略 。为克服 的退化,将逐状态最大值 与标准策略改进算子结合:
其中 为关于 的广义优势函数。与 不同, 不是简单地跟随某个 Oracle,而是利用所有 Oracle 的”价值包络” 作为后继状态价值的估计,前瞻一步选择最优动作。
Proposition 1
相对于 是可改进的,即 。
Proof of Proposition 1
不失一般性设 (状态 的最优 Oracle 为 ),则
其中最后一步利用了 以及 。 是因为任何策略相对于自身价值函数的优势恒为零。
结合 Proposition 1 与下面的 Performance Difference Lemma,可以得到 也是一个有效的基准。
Lemma 1 (Performance Difference Lemma)
设 满足 ,则对任意 MDP 和策略 ,
Corollary 1
若 相对于 是可改进的,则 。
由 Proposition 1 和 Corollary 1 立即得到 对所有 和 成立。因此 在每个状态下都至少与所有 Oracle 一样好,是多 Oracle IL 的合理基准。值得注意的是, 与 的价值一般不可比——附录 A 给出了两者各自更优的反例。作者选择 作为基准而非 ,是因为 不需要观测 Oracle 的动作,与交互式 IL 的设定一致。
3.2 Reduction to Online Learning
上一节的分析假设了对 MDP 和 Oracle 价值函数的完全知识。本节将算法设计规约为在线学习问题,以处理这些量未知的现实情况。
在线损失定义。记第 轮学习者策略为 ,将 视为对手选择的状态分布,定义在线损失:
由 Lemma 1,使 较小等价于使 不低于 。对 轮在线学习取平均,利用 Regret 的定义可以得到:
其中 为在线学习的遗憾, 反映 本身的质量, 反映策略类 的逼近误差。当 时 。
因此,只要采用无悔/No-regret 算法(),就能保证产生至少与 竞争的策略。这一规约将多 Oracle IL 问题等价转化为了一个在线优化问题。
近似 Oracle 价值的影响。在实践中 不可直接获取,需要用近似 替代。对 的梯度可以写为:
其中 。对于单 Oracle 情形, 可以用 Monte-Carlo 估计无偏地获得。但对于多 Oracle 情形,由于不知道每个状态下哪个 Oracle 最优,无法获得 的无偏 Monte-Carlo 估计—— 必须是一个函数近似器。
Theorem 1 (性能保证)
假设一阶在线算法的期望遗憾满足 ,其中 和 分别为梯度估计的偏差和方差,则
Theorem 1 表明:只要梯度估计的偏差 和方差 足够小,MAMBA 产生的最优策略至少与 竞争。偏差 来源于 对 的近似误差,方差 来源于 RIRO 数据收集的采样方差。
3.3 MAMBA: -weighted Online Loss
直接使用 的梯度估计式 (9) 面临一个实际困难:由于 RIRO 协议的限制, 的方差比标准 Monte-Carlo 策略梯度高 倍。为解决这一问题,MAMBA 引入了一个基于几何加权/Geometric Weighting 的替代在线损失:
其中 , 为 -加权优势函数/Lambda-weighted Advantage:
这里 是 步优势:执行 步实际动作后用 估计剩余价值,与当前状态的 之差。-加权优势是对不同步长优势的指数加权平均。
的作用及其与 IL/RL 的关系:
- 当 时,(单步优势),,退化为纯 IL 损失——仅基于 做单步策略改进。
- 当 时,,可以证明 ,即标准 RL 目标——直接最大化累积回报。
- 当 时,在 IL 和 RL 之间插值。
Lemma 2 (广义 Performance Difference Lemma)
对任意策略 、任意 、任意基线价值函数 ,
Lemma 2 的推导
推导基于一个非均匀的 Performance Difference 分解。定义 ,。利用 Lemma 5(Non-even Performance Difference Lemma,将轨迹分段后应用 Lemma 1),可以将 写为不同步长优势的组合:
一般地, 可以表示为 在 和 上的期望之和。对这些等式施加 -加权(系数为 ),并利用幂级数 ,化简后得到 Lemma 2 的结论。
Lemma 2 保证了 与 之间的精确关系,因此对 进行在线优化同样可以通过式 (8) 的类比建立性能保证。
Theorem 2
对 执行无悔在线学习,其性能保证与 Theorem 1 相同,但 现在可以为负值(当 时),这意味着可能获得更大的改进幅度。
Theorem 2 的关键含义是: 可能不是多步优势 意义下的最优策略(当 时),因此 是可能的,这反而为学习者提供了超越 基准的空间。直觉上,更大的 使得算法考虑更多步的未来回报,相当于在 IL 的基础上融入了 RL 的优化能力,能够实现更大的策略改进。但代价是梯度方差 也会增加,收敛更慢。
3.4 Gradient Estimation
尽管 的表达式看起来复杂,但其梯度有一个简洁的形式。
Lemma 3 (梯度表达式)
对任意 、任意基线价值函数 和策略 ,定义
则
利用 Lemma 3,以 近似 ,MAMBA 的梯度估计器为:
其中 是用 替换 后的 -加权优势。
Lemma 4 (GAE 风格的优势展开)
定义 ,则
Lemma 4 表明 可以表示为单步 TD 残差 的 -折扣累积和,这与 RL 中 GAE 的形式完全一致。关键优势在于:给定 作为函数近似器,式 (16) 的无偏采样估计只需要从 采样完整轨迹,不需要 RIRO 交互。RIRO 交互仅用于更新 (从而更新 ),而梯度计算使用独立的 on-policy 轨迹。
在这一梯度估计中扮演双重角色:(1)控制 IL/RL 的权衡(如 3.3 节所述);(2)控制偏差-方差权衡—— 越大,对 近似误差的依赖越小(因为更多使用实际奖励而非价值估计),但轨迹方差越大。当 时,所有 值的梯度都相等;仅在存在近似误差时 的选择才影响结果。
3.5 Complete Algorithm
综合上述分析,MAMBA 的完整流程如下:
Algorithm 1: MAMBA
输入:初始策略 ,Oracle 集 ,价值函数近似器
for do
- 均匀采样切换时间 和 Oracle 索引
- Roll-in 至 ,切换到 完成轨迹,收集数据
- 用 更新 (Monte-Carlo 回归)
- Roll-in 完整 步,收集数据
- 用 和 计算梯度 (式 (16))
- 以 更新 (一阶在线学习,如镜像下降)
每轮迭代包含两类 rollout:一半用于 RIRO 数据收集以更新 Oracle 价值估计,一半用于 on-policy 数据收集以计算策略梯度。实现中 通过加权最小二乘 Monte-Carlo 回归训练,策略使用高斯分布参数化(均值由神经网络给出),更新算法采用 ADAM 或自然梯度下降。
4. Experiments
4.1 Setup
实验在四个 OpenAI Gym 连续控制任务上进行:CartPole(,,)、DoubleInvertedPendulum/DIP(,,)、HalfCheetah(,,)和 Ant(,,)。每个环境中 Oracle 为部分训练的次优神经网络策略。
比较算法:(1)PG-GAE():纯 RL,使用 GAE 策略梯度;(2)AggreVaTeD:单 Oracle IL 基线,等价于 MAMBA 在 时的特例;(3)MAMBA():本文方法。为公平比较,三者使用相同的一阶优化器、相同的神经网络架构和相同的交互预算。在 HalfCheetah 和 Ant 上,IL 算法用最优 Oracle 进行行为克隆初始化。
4.2 -weighting 的效果
在单 Oracle 的 CartPole 实验中(Figure 2),AggreVaTeD(即 的 MAMBA)比 PG-GAE 收敛更快,但最终性能不如后者——这符合理论预期,因为 仅做单步改进,无法发现全局最优策略。 时 MAMBA 兼具了 IL 的快速收敛和 RL 的高渐近性能。中间值 的表现反而最差,可能是因为其处于偏差-方差权衡的不利区域。
4.3 Multiple Oracles 的效果
在 DIP、HalfCheetah 和 Ant 上(Figure 3),MAMBA()使用不同数量的 Oracle(1, 2, 4, 8 个)进行测试。一个值得注意的现象是:即使引入更弱的 Oracle,MAMBA 的性能仍然得到提升。这验证了 基线的设计:即使新增的 Oracle 整体较差,它在某些状态下仍可能优于现有 Oracle,从而丰富价值包络。
MAMBA 在所有环境上都显著优于 PG-GAE 和 AggreVaTeD。但随着状态维度增加(从 DIP 到 Ant),多 Oracle 的边际收益递减——在 Ant 环境中,使用 8 个 Oracle 相比 2 个 Oracle 的提升不如在 DIP 中明显。作者将此归因于高维状态空间下学习多个价值近似器的困难:每个 独立训练且使用 Monte-Carlo 估计,当 Oracle 数量增加时,同等交互预算下每个 获得的训练数据减少,近似质量下降。
4.4 Additional Findings
附录 D 中的补充实验揭示了以下要点:
- AggreVaTeD 的脆弱性:在单 Oracle 设定下,AggreVaTeD 从不同 Oracle 出发的最终性能差异很大,与事后最优的 Oracle 选择结果不一致。MAMBA()对 Oracle 选择更鲁棒,可能是因为多步优势使算法能够超越 Oracle 本身的限制。
- Oracle 排序的鲁棒性:将 Oracle 随机排序(而非按回报降序)后,单 Oracle 设定下性能显著下降(因为可能选中极差的 Oracle),但使用多 Oracle 后 MAMBA 仍能恢复良好性能。
4.5 Critical Analysis
- Oracle 选择策略:MAMBA 采用均匀随机选择 Oracle 和切换时间,未利用已有信息进行自适应选择。在 Oracle 数量较多时,大量样本被浪费在已确认为次优的 Oracle 上。这一问题在后续工作 MAPS 中通过 UCB 策略得到改进。
- 可扩展性:每个 Oracle 需要独立维护一个价值函数近似器,计算和存储开销随 线性增长。实验中观察到的高维环境下边际收益递减印证了这一瓶颈,论文建议通过 off-policy 技术和参数共享来改善。
- 的选择:论文在所有环境上统一使用 ,未提供系统的调优指导。 的最优值可能随环境和 Oracle 质量变化。
- 理论与实践的差距:理论保证基于在线凸优化框架,但实际使用的神经网络策略类是非凸的。实验虽然验证了算法的实际有效性,但理论保证的实际松紧程度不明。
5. Related Work & Future Work
Related Work
单 Oracle 交互式 IL:DAgger 开创了在线收集专家数据纠正分布偏移的范式。AggreVaTe 引入了 cost-to-go 概念,AggreVaTeD 进一步推广为可微分的策略梯度形式。MAMBA 直接推广了 AggreVaTeD:当只有一个 Oracle 且 时,MAMBA 的在线损失与 AggreVaTeD 相同;当 时,MAMBA 额外利用了多步优势信息。
多 Oracle 学习:InfoGAIL 通过隐变量建模不同 Oracle 的演示风格,AC-Teach 用贝叶斯方法对 Oracle 属性建模,OIL 在每个状态选择最优 Oracle 的策略值但缺乏理论分析。MAMBA 与这些方法的根本区别在于:它不试图模仿任何单个 Oracle 或它们的混合,而是通过价值函数的逐状态最大值构建更强的基线,并在此基础上进行策略改进。
GAE 与策略梯度:MAMBA 的梯度估计器在形式上与 GAE 策略梯度一致,但两者优化的是不同的目标函数——GAE 策略梯度是 的近似,而 MAMBA 的梯度是 的近似。仅在单 Oracle 且 的特殊情况下两者才完全等价。
Future Work
论文明确提出的方向:
可以通过 off-policy 技术和跨 Oracle 的参数共享来改善多 Oracle 价值函数估计的可扩展性。
从论文局限性延伸的方向:
- 用自适应的 Oracle 选择策略替代均匀随机选择,例如基于 UCB 的主动选择(这正是后续工作 MAPS 的核心改进)。
- 研究自适应的切换时间选择,将 Oracle 查询集中在真正需要信息的状态上(后续 MAPS-SE 的 ASE 组件解决了这一问题)。
- 探索 的自适应调整策略,随训练进展从偏 IL(快速启动)过渡到偏 RL(精细优化)。
- 在更大规模、更高维度的任务上验证方法的有效性和可扩展性。