MAMBA

Contributions

本文研究多 Oracle 交互式模仿学习/Interactive Imitation Learning 问题：当学习者面对多个次优黑盒专家策略时，如何系统性地整合它们的领域知识以学到更好的策略。核心贡献有三：（1）提出最大聚合基线/Max-aggregated Baseline $f^{m a x} (s) = max_{k} V^{k} (s)$ ，即在每个状态取所有 Oracle 价值函数的逐状态最大值，作为多 Oracle IL 的自然性能基准；（2）设计 MAMBA（Max-Aggregation of Multiple BAselines）算法，通过将策略优化规约到在线学习/Online Learning，并引入类似广义优势估计/Generalized Advantage Estimation/GAE 的梯度估计器，实现对 $f^{m a x}$ 的竞争性策略改进；（3）引入超参数 $λ$ 在单步策略改进（纯 IL）和完整回报优化（纯 RL）之间插值，理论证明更大的 $λ$ 允许更大的策略改进幅度但增加方差，并提供了基于遗憾/Regret 的性能保证。实验在四个连续控制任务上表明 MAMBA 能有效利用多个弱 Oracle 来加速策略优化，同时在单 Oracle 情形下也优于现有 IL 基线 AggreVaTeD。

本文的理论和算法均假设 Oracle 的价值函数可以通过 Monte-Carlo Roll-out 被合理近似，但在多 Oracle 情形下无法获得 $f^{m a x}$ 的无偏估计（因为不知道每个状态下哪个 Oracle 最优），必须依赖函数近似器。当 Oracle 数量较多或状态空间维度较高时，学习多个价值函数近似器的开销显著增加，论文实验中也观察到了这一可扩展性瓶颈。此外，Oracle 选择采用均匀随机策略，未利用已有信息主动选择更优的 Oracle，这一问题在后续工作 MAPS 中被改进。

1. Introduction

强化学习/Reinforcement Learning/RL 在机器人、推荐系统等领域有广泛应用前景，但其核心瓶颈在于需要大量试错探索才能发现好的策略。模仿学习/Imitation Learning/IL 通过引入 Oracle 策略（专家演示）来引导探索，可以显著降低样本复杂度。在单 Oracle 设定下，Oracle 的回报提供了一个天然的性能基准——学习者的目标是匹配或超越这个基准，大多数现有 IL 技术都建立在这一假设之上。

然而在实际应用中，获得单个高质量专家策略往往很困难。更常见的情况是：存在多个次优的专家策略，每个在不同场景下各有优势。例如在负载均衡任务中，有多种人工设计的启发式策略；在自动驾驶中，PID 控制器和人类驾驶员各有所长。此时学习者面临的核心挑战是：来自不同 Oracle 的演示可能相互冲突，没有任何单个 Oracle 在所有状态下都优于其他 Oracle，且每个 Oracle 的质量事先未知。

虽然 InfoGAIL、AC-Teach、OIL 等工作已经开始研究多 Oracle 学习，但它们都回避了两个根本性问题：

性能基准：在多 Oracle 设定下，什么是衡量学习者性能的合理基准？在单 Oracle IL 中，这个基准就是 Oracle 的回报，但多 Oracle 情形下并不存在一个显然的类比。
系统性整合：是否存在一种有原则的方法，将多个次优 Oracle 缝合/Stitch 成一个更强的基线，并允许在此基础上进一步改进？

本文对这两个问题给出了肯定的回答。第一，作者提出 $f^{m a x} (s) = max_{k} V^{k} (s)$ 作为多 Oracle IL 的自然基准，它在每个状态下都不低于任何单个 Oracle 的价值。第二，作者设计了 MAMBA 算法，通过 Roll-in/Roll-out 交互范式收集数据，利用 GAE 风格的梯度估计器进行策略优化，并证明了基于遗憾的理论保证。MAMBA 实质上是单 Oracle IL 算法 AggreVaTeD 到多 Oracle 情形的推广，同时通过 $λ$ 参数在 IL 和 RL 之间建立了连续过渡。

2. Problem Setup

2.1 Episodic MDP

考虑有限时域马尔可夫决策过程/Markov Decision Process/MDP，其状态空间为 $S$ ，动作空间为 $A$ ，初始状态分布为 $d_{0} (s)$ ，转移概率为 $P (s^{'} ∣ s, a)$ ，奖励函数为 $r : S \times A \to [0, 1]$ ，时间视界为 $T$ 。 $d_{0}$ 、 $P$ 和 $r$ 均固定但未知。为了紧凑地处理非平稳性，将状态空间构造为扩充状态空间 $S = \overset{ˉ}{S} \times {0, \dots, T - 1}$ ，其中 $\overset{ˉ}{S}$ 为基础状态空间。这一技巧将时间信息编码进状态，使得转移和奖励可以统一用不含时间下标的形式书写。

给定策略类 $Π$ ，目标是找到 $π \in Π$ 最大化 $T$ 步回报：

V^{π} (d_{0}) : = E_{s_{0} \sim d_{0}} E_{ξ_{0} \sim ρ^{π} ∣ s_{0}} [t = 0 \sum T - 1 r (s_{t}, a_{t})], (1)

其中 $ρ^{π} (ξ_{t} ∣ s_{t})$ 为从 $s_{t}$ 出发按 $π$ 生成的轨迹 $ξ_{t} = s_{t}, a_{t}, \dots, s_{T - 1}, a_{T - 1}$ 的分布。

2.2 State Distribution and Value Functions

记 $d_{t}^{π}$ 为从 $d_{0}$ 出发运行 $π$ 在时刻 $t$ 的状态分布，定义平均状态分布/Average State Distribution $d^{π} : = \frac{1}{T} \sum_{t = 0}^{T - 1} d_{t}^{π}$ ，则 $V^{π} (d_{0}) = T E_{s \sim d^{π}} E_{a \sim π ∣ s} [r (s, a)]$ 。

本文引入了一个关键的推广：给定满足 $f (s_{T}) = 0$ 的任意函数 $f : S \to R$ ，定义关于 $f$ 的广义优势函数/Generalized Advantage Function：

A^{f} (s, a) : = r (s, a) + E_{s^{'} \sim P ∣ s, a} [f (s^{'})] - f (s) . (2)

当 $f = V^{π}$ 时退化为标准优势函数 $A^{π}$ 。 $f$ 在策略 $π$ 下的期望优势记为 $A^{f} (s, π) : = E_{a \sim π ∣ s} [A^{f} (s, a)]$ 。

广义优势函数的设计意图

标准优势函数 $A^{π} (s, a)$ 衡量的是动作 $a$ 相对于策略 $π$ 自身价值的优势。而 $A^{f} (s, a)$ 衡量的是动作 $a$ 相对于任意基线价值函数 $f$ 的优势。后续作者会将 $f$ 替换为 $f^{m a x}$ （多 Oracle 最大价值包络），这样 $A^{f^{m a x}} (s, π) > 0$ 就意味着策略 $π$ 在状态 $s$ 下的表现优于所有 Oracle 的”最优拼接”。

Definition 1 (可改进性/Improvability)

若 $A^{f} (s, π) \geq 0, \forall s \in S$ ，则称基线价值函数 $f$ 相对于策略 $π$ 是可改进的/Improvable。

2.3 Interactive Imitation Learning with Multiple Oracles

学习者可访问一组 Oracle 策略 $Π^{e} = {π^{k}}_{k \in [K]}$ ，在训练期间通过滚入-滚出/Roll-in-Roll-out/RIRO 范式与 Oracle 交互：每个回合中，学习者从 $d_{0}$ 采样的初始状态出发，先运行自己的策略 $π$ 至随机切换时间 $t_{e} \in [0, T - 1]$ （Roll-in），然后请求某个 Oracle $π^{k}$ 接管并完成剩余轨迹（Roll-out），最后记录完整轨迹及奖励。

这一范式有两个重要特点：（1）不需要观测 Oracle 的动作分布，只需看到执行后的轨迹和奖励；（2）由于可以获得奖励信号，学习者有潜力超越所有 Oracle。

RIRO 范式的作用

Roll-in 阶段使用学习者自身策略，确保收集到的数据覆盖学习者实际会访问的状态分布，缓解了行为克隆/Behavior Cloning 中的分布偏移/Distribution Shift 问题。Roll-out 阶段由 Oracle 接管，提供了从当前状态出发的价值估计（ $Q$ 值），作为策略改进的信号。

3. Algorithm

3.1 Conceptual Framework: Max-aggregation with Policy Improvement

在设计实际算法之前，本文首先建立了一个概念框架，回答”多 Oracle 的合理基准是什么”这一核心问题。

朴素方案及其失败。一种直接的做法是将多个 Oracle 合并为一个（如固定权重混合或动作概率相乘），但前者在存在差 Oracle 时表现很差，后者无法处理确定性策略。另一种做法是对每个 Oracle 分别运行单 Oracle IL 算法后选择最优结果，但附录 A 给出了反例：两个回报相同的 Oracle，选择其中任一个都是次优的，而在它们之间切换可以获得更高回报。

Max-following 策略 $π^{∙}$ 。如果已知每个 Oracle 的价值函数 $V^{k} : = V^{π^{k}}$ ，一个自然的想法是在每个状态跟随价值最高的 Oracle：

π^{∙} (a ∣ s) : = π^{k_{s}} (a ∣ s), k_{s} : = ar g k \in [K] max V^{k} (s) . (3)

可以证明 $V^{π^{∙}} (s) \geq max_{k \in [K]} V^{k} (s)$ ，即 $π^{∙}$ 在每个状态都不差于最优 Oracle。但 $π^{∙}$ 有一个退化问题：当某个 Oracle 在所有状态都占优时， $π^{∙}$ 退化为该 Oracle 本身，而我们已知通过单步策略改进可以构造更好的策略。

Max-aggregation 策略 $π^{m a x}$ 。为克服 $π^{∙}$ 的退化，将逐状态最大值 $f^{m a x}$ 与标准策略改进算子结合：

f^{m a x} (s) : = k \in [K] max V^{k} (s), (4)

π^{m a x} (a ∣ s) : = δ_{a = a_{s}}, a_{s} : = ar g a \in A max A^{m a x} (s, a), (5)

其中 $A^{m a x} : = A^{f^{m a x}}$ 为关于 $f^{m a x}$ 的广义优势函数。与 $π^{∙}$ 不同， $π^{m a x}$ 不是简单地跟随某个 Oracle，而是利用所有 Oracle 的”价值包络” $f^{m a x}$ 作为后继状态价值的估计，前瞻一步选择最优动作。

Proposition 1

$f^{m a x}$ 相对于 $π^{∙}$ 是可改进的，即 $A^{m a x} (s, π^{∙}) \geq 0, \forall s \in S$ 。

Proof of Proposition 1

不失一般性设 $k_{s} = 1$ （状态 $s$ 的最优 Oracle 为 $π^{1}$ ），则
$A^{m a x} (s, π^{∙}) = r (s, π^{∙}) + E_{s^{'} \sim P ∣ s, π^{∙}} [f^{m a x} (s^{'})] - f^{m a x} (s) \geq r (s, π^{1}) + E_{s^{'}} [V^{1} (s^{'})] - V^{1} (s) = A^{V^{1}} (s, π^{1}) = 0,$
其中最后一步利用了 $π^{∙} (a ∣ s) = π^{1} (a ∣ s)$ 以及 $f^{m a x} (s^{'}) \geq V^{1} (s^{'})$ 。 $A^{V^{1}} (s, π^{1}) = 0$ 是因为任何策略相对于自身价值函数的优势恒为零。

结合 Proposition 1 与下面的 Performance Difference Lemma，可以得到 $π^{m a x}$ 也是一个有效的基准。

Lemma 1 (Performance Difference Lemma)

设 $f : S \to R$ 满足 $f (s_{T}) = 0$ ，则对任意 MDP 和策略 $π$ ，
$V^{π} (d_{0}) - f (d_{0}) = T E_{s \sim d^{π}} [A^{f} (s, π)] . (6)$

Corollary 1

若 $f$ 相对于 $π$ 是可改进的，则 $V^{π} (s) \geq f (s), \forall s \in S$ 。

由 Proposition 1 和 Corollary 1 立即得到 $V^{π^{m a x}} (s) \geq f^{m a x} (s) \geq V^{k} (s)$ 对所有 $k$ 和 $s$ 成立。因此 $π^{m a x}$ 在每个状态下都至少与所有 Oracle 一样好，是多 Oracle IL 的合理基准。值得注意的是， $π^{m a x}$ 与 $π^{∙}$ 的价值一般不可比——附录 A 给出了两者各自更优的反例。作者选择 $π^{m a x}$ 作为基准而非 $π^{∙}$ ，是因为 $π^{m a x}$ 不需要观测 Oracle 的动作，与交互式 IL 的设定一致。

3.2 Reduction to Online Learning

上一节的分析假设了对 MDP 和 Oracle 价值函数的完全知识。本节将算法设计规约为在线学习问题，以处理这些量未知的现实情况。

在线损失定义。记第 $n$ 轮学习者策略为 $π_{n}$ ，将 $d^{π_{n}}$ 视为对手选择的状态分布，定义在线损失：

ℓ_{n} (π) : = - T E_{s \sim d^{π_{n}}} [A^{m a x} (s, π)] . (7)

由 Lemma 1，使 $ℓ_{n} (π_{n})$ 较小等价于使 $V^{π_{n}} (d_{0})$ 不低于 $f^{m a x} (d_{0})$ 。对 $N$ 轮在线学习取平均，利用 Regret 的定义可以得到：

\frac{1}{N} n \in [N] \sum V^{π_{n}} (d_{0}) = f^{m a x} (d_{0}) + Δ_{N} - ϵ_{N} (Π) - \frac{Regret _{N}}{N}, (8)

其中 $Regret_{N} : = \sum_{n = 1}^{N} ℓ_{n} (π_{n}) - min_{π \in Π} \sum_{n = 1}^{N} ℓ_{n} (π)$ 为在线学习的遗憾， $Δ_{N} : = - \frac{1}{N} \sum_{n = 1}^{N} ℓ_{n} (π^{m a x}) \geq 0$ 反映 $π^{m a x}$ 本身的质量， $ϵ_{N} (Π) \geq 0$ 反映策略类 $Π$ 的逼近误差。当 $π^{m a x} \in Π$ 时 $ϵ_{N} (Π) = 0$ 。

因此，只要采用无悔/No-regret 算法（ $Regret_{N} = o (N)$ ），就能保证产生至少与 $f^{m a x}$ 竞争的策略。这一规约将多 Oracle IL 问题等价转化为了一个在线优化问题。

近似 Oracle 价值的影响。在实践中 $f^{m a x}$ 不可直接获取，需要用近似 $\hat{f}^{m a x} (s) = max_{k \in [K]} \hat{V}^{k} (s)$ 替代。对 $ℓ_{n} (π)$ 的梯度可以写为：

\nabla \hat{ℓ}_{n} (π_{n}) = - T E_{s \sim d^{π_{n}}} E_{a \sim π ∣ s} [\nabla lo g π (a ∣ s) \hat{A} (s, a)]_{π = π_{n}}, (9)

其中 $\hat{A} (s, a) = r (s, a) + E_{s^{'}} [\hat{f}^{m a x} (s^{'})] - \hat{f}^{m a x} (s)$ 。对于单 Oracle 情形， $\hat{f}^{m a x}$ 可以用 Monte-Carlo 估计无偏地获得。但对于多 Oracle 情形，由于不知道每个状态下哪个 Oracle 最优，无法获得 $f^{m a x}$ 的无偏 Monte-Carlo 估计—— $\hat{f}^{m a x}$ 必须是一个函数近似器。

Theorem 1 (性能保证)

假设一阶在线算法的期望遗憾满足 $E [Regret_{N}] \leq O (βN + ν N)$ ，其中 $β$ 和 $ν$ 分别为梯度估计的偏差和方差，则
$E [n \in [N] max V^{π_{n}} (d_{0})] \geq E_{s \sim d_{0}} [k \in [K] max V^{k} (s)] + E [Δ_{N} - ϵ_{N} (Π)] - O (β + ν N^{- 1/2}) . (10)$

Theorem 1 表明：只要梯度估计的偏差 $β$ 和方差 $ν$ 足够小，MAMBA 产生的最优策略至少与 $f^{m a x}$ 竞争。偏差 $β$ 来源于 $\hat{f}^{m a x}$ 对 $f^{m a x}$ 的近似误差，方差 $ν$ 来源于 RIRO 数据收集的采样方差。

3.3 MAMBA: $λ$ -weighted Online Loss

直接使用 $ℓ_{n} (π)$ 的梯度估计式 (9) 面临一个实际困难：由于 RIRO 协议的限制， $\nabla \hat{ℓ}_{n}$ 的方差比标准 Monte-Carlo 策略梯度高 $O (T)$ 倍。为解决这一问题，MAMBA 引入了一个基于几何加权/Geometric Weighting 的替代在线损失：

ℓ_{n} (π; λ) : = - (1 - λ) T E_{s \sim d^{π_{n}}} [A_{λ}^{m a x, π} (s, π)] - λ E_{s \sim d_{0}} [A_{λ}^{m a x, π} (s, π)], (11)

其中 $λ \in [0, 1]$ ， $A_{λ}^{m a x, π}$ 为 $λ$ -加权优势函数/Lambda-weighted Advantage：

A_{λ}^{m a x, π} (s, a) : = (1 - λ) i = 0 \sum \infty λ^{i} A_{(i)}^{m a x, π} (s, a), (12)

A_{(i)}^{m a x, π} (s_{t}, a_{t}) : = E_{ξ_{i} \sim ρ^{π} ∣ s_{t}} [j = 0 \sum i r (s_{t + j}, a_{t + j}) + f^{m a x} (s_{t + i + 1})] - f^{m a x} (s_{t}) . (13)

这里 $A_{(i)}^{m a x, π}$ 是 $i$ 步优势：执行 $i + 1$ 步实际动作后用 $f^{m a x}$ 估计剩余价值，与当前状态的 $f^{m a x}$ 之差。 $λ$ -加权优势是对不同步长优势的指数加权平均。

$λ$ 的作用及其与 IL/RL 的关系：

当 $λ = 0$ 时， $A_{λ}^{m a x, π} = A^{m a x}$ （单步优势）， $ℓ_{n} (π; 0) = ℓ_{n} (π)$ ，退化为纯 IL 损失——仅基于 $f^{m a x}$ 做单步策略改进。
当 $λ = 1$ 时， $A_{λ}^{m a x, π} = Q^{π} - f^{m a x}$ ，可以证明 $ℓ_{n} (π; 1) = f^{m a x} (d_{0}) - V^{π} (d_{0})$ ，即标准 RL 目标——直接最大化累积回报。
当 $0 < λ < 1$ 时，在 IL 和 RL 之间插值。

Lemma 2 (广义 Performance Difference Lemma)

对任意策略 $π$ 、任意 $λ \in [0, 1]$ 、任意基线价值函数 $f$ ，
$V^{π} (d_{0}) - f (d_{0}) = (1 - λ) T E_{s \sim d^{π}} [A_{λ}^{f, π} (s, π)] + λ E_{s \sim d_{0}} [A_{λ}^{f, π} (s, π)] . (14)$

Lemma 2 的推导

推导基于一个非均匀的 Performance Difference 分解。定义 $Θ = V^{π} (d_{0}) - f (d_{0})$ ， $A_{(i)} = A_{(i)}^{f, π}$ 。利用 Lemma 5（Non-even Performance Difference Lemma，将轨迹分段后应用 Lemma 1），可以将 $Θ$ 写为不同步长优势的组合：
$Θ = t = 0 \sum T - 1 E_{d_{t}^{π}} E_{π} [A_{(0)}],$ $2Θ = E_{d_{0}} E_{π} [A_{(1)}] + t = 0 \sum T - 1 E_{d_{t}^{π}} E_{π} [A_{(1)}],$
一般地， $(k + 1) Θ$ 可以表示为 $A_{(k)}$ 在 $d_{0}$ 和 $d_{t}^{π}$ 上的期望之和。对这些等式施加 $λ$ -加权（系数为 $(1 - λ) (1 + 2 λ + 3 λ^{2} + \dots) = \frac{1}{1 - λ}$ ），并利用幂级数 $λ + 2 λ^{2} + 3 λ^{3} + \dots = \frac{λ}{( 1 - λ ) ^{2}}$ ，化简后得到 Lemma 2 的结论。

Lemma 2 保证了 $ℓ_{n} (π; λ)$ 与 $V^{π_{n}} (d_{0}) - f^{m a x} (d_{0})$ 之间的精确关系，因此对 $ℓ_{n} (π_{n}; λ)$ 进行在线优化同样可以通过式 (8) 的类比建立性能保证。

Theorem 2

对 $ℓ_{n} (π; λ)$ 执行无悔在线学习，其性能保证与 Theorem 1 相同，但 $ϵ_{N} (Π)$ 现在可以为负值（当 $λ > 0$ 时），这意味着可能获得更大的改进幅度。

Theorem 2 的关键含义是： $π^{m a x}$ 可能不是多步优势 $A_{λ}^{m a x, π}$ 意义下的最优策略（当 $λ > 0$ 时），因此 $ϵ_{N} (Π) < 0$ 是可能的，这反而为学习者提供了超越 $f^{m a x}$ 基准的空间。直觉上，更大的 $λ$ 使得算法考虑更多步的未来回报，相当于在 IL 的基础上融入了 RL 的优化能力，能够实现更大的策略改进。但代价是梯度方差 $ν$ 也会增加，收敛更慢。

3.4 Gradient Estimation

尽管 $ℓ_{n} (π; λ)$ 的表达式看起来复杂，但其梯度有一个简洁的形式。

Lemma 3 (梯度表达式)

对任意 $λ \in [0, 1]$ 、任意基线价值函数 $f$ 和策略 $π$ ，定义
$h (π; λ) : = (1 - λ) T E_{s \sim d^{μ}} [A_{λ}^{f, π} (s, π)] + λ E_{s \sim d_{0}} [A_{λ}^{f, π} (s, π)],$
则
$\nabla h (π; λ)_{μ = π} = T E_{s \sim d^{π}} E_{a \sim π ∣ s} [\nabla lo g π (a ∣ s) A_{λ}^{f, π} (s, a)] . (15)$

利用 Lemma 3，以 $\hat{f}^{m a x}$ 近似 $f^{m a x}$ ，MAMBA 的梯度估计器为：

\nabla \hat{ℓ}_{n} (π_{n}; λ) = - T E_{s \sim d^{π_{n}}} E_{a \sim π ∣ s} [\nabla lo g π (a ∣ s) \hat{A}_{λ}^{π} (s, a)]_{π = π_{n}}, (16)

其中 $\hat{A}_{λ}^{π}$ 是用 $\hat{f}^{m a x}$ 替换 $f^{m a x}$ 后的 $λ$ -加权优势。

Lemma 4 (GAE 风格的优势展开)

定义 $\hat{A} (s, a) : = r (s, a) + E_{s^{'} ∣ s, a} [\hat{f}^{m a x} (s^{'})] - \hat{f}^{m a x} (s)$ ，则
$\hat{A}_{λ}^{π} (s_{t}, a_{t}) = E_{ξ_{t} \sim ρ^{π} ∣ s_{t}} [τ = t \sum T - 1 λ^{τ - t} \hat{A} (a_{τ}, s_{τ})] . (17)$

Lemma 4 表明 $\hat{A}_{λ}^{π}$ 可以表示为单步 TD 残差 $\hat{A} (s_{τ}, a_{τ})$ 的 $λ$ -折扣累积和，这与 RL 中 GAE 的形式完全一致。关键优势在于：给定 $\hat{f}^{m a x}$ 作为函数近似器，式 (16) 的无偏采样估计只需要从 $π$ 采样完整轨迹，不需要 RIRO 交互。RIRO 交互仅用于更新 $\hat{V}^{k}$ （从而更新 $\hat{f}^{m a x}$ ），而梯度计算使用独立的 on-policy 轨迹。

$λ$ 在这一梯度估计中扮演双重角色：（1）控制 IL/RL 的权衡（如 3.3 节所述）；（2）控制偏差-方差权衡—— $λ$ 越大，对 $\hat{f}^{m a x}$ 近似误差的依赖越小（因为更多使用实际奖励而非价值估计），但轨迹方差越大。当 $\hat{f}^{m a x} = f^{m a x}$ 时，所有 $λ$ 值的梯度都相等；仅在存在近似误差时 $λ$ 的选择才影响结果。

3.5 Complete Algorithm

综合上述分析，MAMBA 的完整流程如下：

Algorithm 1: MAMBA

输入：初始策略 $π_{1}$ ，Oracle 集 ${π^{k}}_{k \in [K]}$ ，价值函数近似器 ${\hat{V}^{k}}_{k \in [K]}$

for $n = 1, \dots, N - 1$ do

均匀采样切换时间 $t_{e} \in [T - 1]$ 和 Oracle 索引 $k \in [K]$

Roll-in $π_{n}$ 至 $t_{e}$ ，切换到 $π^{k}$ 完成轨迹，收集数据 $D_{n}$

用 $D_{n}$ 更新 $\hat{V}^{k}$ （Monte-Carlo 回归）

Roll-in $π_{n}$ 完整 $T$ 步，收集数据 $D_{n}^{'}$

用 $D_{n}^{'}$ 和 $\hat{f}^{m a x} (s) = max_{k} \hat{V}^{k} (s)$ 计算梯度 $g_{n}$ （式 (16)）

以 $g_{n}$ 更新 $π_{n} \to π_{n + 1}$ （一阶在线学习，如镜像下降）

每轮迭代包含两类 rollout：一半用于 RIRO 数据收集以更新 Oracle 价值估计，一半用于 on-policy 数据收集以计算策略梯度。实现中 $\hat{V}^{k}$ 通过加权最小二乘 Monte-Carlo 回归训练，策略使用高斯分布参数化（均值由神经网络给出），更新算法采用 ADAM 或自然梯度下降。

4. Experiments

4.1 Setup

实验在四个 OpenAI Gym 连续控制任务上进行：CartPole（ $T = 1000$ ， $∣ S ∣ = 4$ ， $∣ A ∣ = 1$ ）、DoubleInvertedPendulum/DIP（ $T = 1000$ ， $∣ S ∣ = 8$ ， $∣ A ∣ = 1$ ）、HalfCheetah（ $T = 500$ ， $∣ S ∣ = 17$ ， $∣ A ∣ = 6$ ）和 Ant（ $T = 500$ ， $∣ S ∣ = 111$ ， $∣ A ∣ = 8$ ）。每个环境中 Oracle 为部分训练的次优神经网络策略。

比较算法：（1）PG-GAE（ $λ = 0.9$ ）：纯 RL，使用 GAE 策略梯度；（2）AggreVaTeD：单 Oracle IL 基线，等价于 MAMBA 在 $λ = 0$ 时的特例；（3）MAMBA（ $λ = 0.9$ ）：本文方法。为公平比较，三者使用相同的一阶优化器、相同的神经网络架构和相同的交互预算。在 HalfCheetah 和 Ant 上，IL 算法用最优 Oracle 进行行为克隆初始化。

4.2 $λ$ -weighting 的效果

在单 Oracle 的 CartPole 实验中（Figure 2），AggreVaTeD（即 $λ = 0$ 的 MAMBA）比 PG-GAE 收敛更快，但最终性能不如后者——这符合理论预期，因为 $λ = 0$ 仅做单步改进，无法发现全局最优策略。 $λ = 0.9$ 时 MAMBA 兼具了 IL 的快速收敛和 RL 的高渐近性能。中间值 $λ = 0.5$ 的表现反而最差，可能是因为其处于偏差-方差权衡的不利区域。

4.3 Multiple Oracles 的效果

在 DIP、HalfCheetah 和 Ant 上（Figure 3），MAMBA（ $λ = 0.9$ ）使用不同数量的 Oracle（1, 2, 4, 8 个）进行测试。一个值得注意的现象是：即使引入更弱的 Oracle，MAMBA 的性能仍然得到提升。这验证了 $f^{m a x}$ 基线的设计：即使新增的 Oracle 整体较差，它在某些状态下仍可能优于现有 Oracle，从而丰富价值包络。

MAMBA 在所有环境上都显著优于 PG-GAE 和 AggreVaTeD。但随着状态维度增加（从 DIP 到 Ant），多 Oracle 的边际收益递减——在 Ant 环境中，使用 8 个 Oracle 相比 2 个 Oracle 的提升不如在 DIP 中明显。作者将此归因于高维状态空间下学习多个价值近似器的困难：每个 $\hat{V}^{k}$ 独立训练且使用 Monte-Carlo 估计，当 Oracle 数量增加时，同等交互预算下每个 $\hat{V}^{k}$ 获得的训练数据减少，近似质量下降。

4.4 Additional Findings

附录 D 中的补充实验揭示了以下要点：

AggreVaTeD 的脆弱性：在单 Oracle 设定下，AggreVaTeD 从不同 Oracle 出发的最终性能差异很大，与事后最优的 Oracle 选择结果不一致。MAMBA（ $λ > 0$ ）对 Oracle 选择更鲁棒，可能是因为多步优势使算法能够超越 Oracle 本身的限制。
Oracle 排序的鲁棒性：将 Oracle 随机排序（而非按回报降序）后，单 Oracle 设定下性能显著下降（因为可能选中极差的 Oracle），但使用多 Oracle 后 MAMBA 仍能恢复良好性能。

4.5 Critical Analysis

Oracle 选择策略：MAMBA 采用均匀随机选择 Oracle 和切换时间，未利用已有信息进行自适应选择。在 Oracle 数量较多时，大量样本被浪费在已确认为次优的 Oracle 上。这一问题在后续工作 MAPS 中通过 UCB 策略得到改进。
可扩展性：每个 Oracle 需要独立维护一个价值函数近似器，计算和存储开销随 $K$ 线性增长。实验中观察到的高维环境下边际收益递减印证了这一瓶颈，论文建议通过 off-policy 技术和参数共享来改善。
$λ$ 的选择：论文在所有环境上统一使用 $λ = 0.9$ ，未提供系统的调优指导。 $λ$ 的最优值可能随环境和 Oracle 质量变化。
理论与实践的差距：理论保证基于在线凸优化框架，但实际使用的神经网络策略类是非凸的。实验虽然验证了算法的实际有效性，但理论保证的实际松紧程度不明。

单 Oracle 交互式 IL：DAgger 开创了在线收集专家数据纠正分布偏移的范式。AggreVaTe 引入了 cost-to-go 概念，AggreVaTeD 进一步推广为可微分的策略梯度形式。MAMBA 直接推广了 AggreVaTeD：当只有一个 Oracle 且 $λ = 0$ 时，MAMBA 的在线损失与 AggreVaTeD 相同；当 $λ > 0$ 时，MAMBA 额外利用了多步优势信息。

多 Oracle 学习：InfoGAIL 通过隐变量建模不同 Oracle 的演示风格，AC-Teach 用贝叶斯方法对 Oracle 属性建模，OIL 在每个状态选择最优 Oracle 的策略值但缺乏理论分析。MAMBA 与这些方法的根本区别在于：它不试图模仿任何单个 Oracle 或它们的混合，而是通过价值函数的逐状态最大值构建更强的基线，并在此基础上进行策略改进。

GAE 与策略梯度：MAMBA 的梯度估计器在形式上与 GAE 策略梯度一致，但两者优化的是不同的目标函数——GAE 策略梯度是 $- \nabla V^{π} (d_{0})$ 的近似，而 MAMBA 的梯度是 $\nabla ℓ_{n} (π; λ)$ 的近似。仅在单 Oracle 且 $λ = 1$ 的特殊情况下两者才完全等价。

Future Work

论文明确提出的方向：

可以通过 off-policy 技术和跨 Oracle 的参数共享来改善多 Oracle 价值函数估计的可扩展性。

从论文局限性延伸的方向：

用自适应的 Oracle 选择策略替代均匀随机选择，例如基于 UCB 的主动选择（这正是后续工作 MAPS 的核心改进）。
研究自适应的切换时间选择，将 Oracle 查询集中在真正需要信息的状态上（后续 MAPS-SE 的 ASE 组件解决了这一问题）。
探索 $λ$ 的自适应调整策略，随训练进展从偏 IL（快速启动）过渡到偏 RL（精细优化）。
在更大规模、更高维度的任务上验证方法的有效性和可扩展性。

Paper List

Explorer

Policy Improvement via Imitation of Multiple Oracles

1. Introduction

2. Problem Setup

2.1 Episodic MDP

2.2 State Distribution and Value Functions

2.3 Interactive Imitation Learning with Multiple Oracles

3. Algorithm

3.1 Conceptual Framework: Max-aggregation with Policy Improvement

3.2 Reduction to Online Learning

3.3 MAMBA: $λ$ -weighted Online Loss

3.4 Gradient Estimation

3.5 Complete Algorithm

4. Experiments

4.1 Setup

4.2 $λ$ -weighting 的效果

4.3 Multiple Oracles 的效果

4.4 Additional Findings

4.5 Critical Analysis

Future Work

Table of Contents

Backlinks

Paper List

Explorer

Policy Improvement via Imitation of Multiple Oracles

1. Introduction

2. Problem Setup

2.1 Episodic MDP

2.2 State Distribution and Value Functions

2.3 Interactive Imitation Learning with Multiple Oracles

3. Algorithm

3.1 Conceptual Framework: Max-aggregation with Policy Improvement

3.2 Reduction to Online Learning

3.3 MAMBA: λ-weighted Online Loss

3.4 Gradient Estimation

3.5 Complete Algorithm

4. Experiments

4.1 Setup

4.2 λ-weighting 的效果

4.3 Multiple Oracles 的效果

4.4 Additional Findings

4.5 Critical Analysis

5. Related Work & Future Work

Related Work

Future Work

Table of Contents

Backlinks

3.3 MAMBA: $λ$ -weighted Online Loss

4.2 $λ$ -weighting 的效果