1. Single Expert Active Imitation Learning

  • JMLR 2014: Active Imitation Learning: Formal and Practical Reductions to I.I.D. Learning, JMLR

2. Multiple Expert Active Imitation Learning

当前我们考虑的设置主要有如下四点,有几点和单专家的设定重合:

  • 多个黑盒的专家/Expert/预言机/Oracle:专家可能在能力水平、偏好和专业领域上存在差异。
  • 主动查询:Learner 需要主动选择在哪个状态向哪一个专家进行查询;
  • 超越所有专家的稳健性能改进:Learner 需要博采众专家所长,并在此基础上实现性能提升;
  • Learner 可以与环境交互,决定何时何地进行查询,但是具体是否可以获得奖励信号取决问题设定。

目标是一样的:

  • 尽可能达到低 Regret,也就是高性能;
  • 尽可能减少对专家查询的次数,因为查询专家往往是昂贵的。

一些设定限制了我们访问专家的方式,例如只能查询专家在某个状态下的动作,不能大批量获得专家的轨迹数据,也不能访问专家的价值函数或者梯度信息。一般的奖励函数公式是未知的,但是允许智能体和环境进行交互,采样获得即时奖励信号与环境动态,从而估计专家的价值函数和优势函数。

  • NeurIPS 2024: Contextual Active Model Selection, arXiv
  • NeurIPS 2020, MAMBA: Policy Improvement via Imitation of Multiple Oracles, arXiv, Note
  • ICML 2023, MAPS: Active Policy Improvement from Multiple Black-box Oracles, arXiv, Note
  • ICLR 2024, RPI: Blending Imitation and Reinforcement Learning for Robust Policy Improvement, arXiv

MAMBAMAPS 以及 RPI 的设定下,我们考虑的是一个有限 MDP,智能体可以访问一组专家策略,记为 ,这些专家都不是全局最优的,一般情况下互有优劣,不存在一个专家在所有状态下都优于其他专家的情况,这意味着智能体不能简单的只模仿一个专家,同时不同专家在不同状态下的表现也一般是不同的。专家/Oracle 对学习者来讲是一个黑盒,学习者可以查询专家的动作,或者可以连续让专家和环境交互产生轨迹,但是无法获得专家内部的价值函数或者梯度信息。但是,虽然奖励函数 是未知的,智能体在开始的时候不能知道奖励函数的数学公式,但是在实际的交互过程中,环境会反馈即时的奖励信号 。因此可以通过采样的方式估计黑盒专家的价值函数 以及优势函数

在这种设定下,一般的流程(以 MAPS 为例)是:先让学习者在 Horizon 内与环境交互几步,然后专家上号,一直控制到本集结束(到了 Horizon 限制或者到达终止状态),这样产生了一个混合轨迹,后半段是专家跑出来的(带奖励数据),利用这部分数据可以更新估计专家的价值函数,然后学习者再完整跑一集,利用收集的数据以及根据专家价值函数的的估计计算策略梯度,进行对学习者参数的更新。这样的算法结合了模仿学习和强化学习的思想,一方面可以利用专家来进行一部分蒸馏,可以节省样本复杂度,另一方面可以使用强化学习的方法来进一步优化回报,比较当前学习者和专家的差距,博采众长,实现超越所有专家的性能提升。

在另一些设定下,环境限制智能体获得奖励信号,只可以获得环境动态,训练期间学习者永远不会观察到 ,只可以通过专家的轨迹或者查询信息来进行学习。

  • arXiv 2020, APIL: Active Imitation Learning from Multiple Non-Deterministic Teachers: Formulation, Challenges, and Algorithms, arXiv
  • NeurIPS 2023, RAVIOLI: Selective Sampling and Imitation Learning via Online Regression, arXiv
  • NeurIPS 2023, AURORA: Contextual Bandits and Imitation Learning with Preference-Based Active Queries, arXiv, Note
  • NeurIPS 2025, WARM-STAGGER: Interactive and Hybrid Imitation Learning: Provably Beating Behavior Cloning, OpenReview
  • ICLR 2025, RND-Dagger: Efficient Active Imitation Learning with Random Network Distillation, arXiv

这些文章的算法结构高度相似,一个主要的 Learner 将 Oracle/Expert 的反馈当做监督信号,基于监督信号在线回归/结构预测一个模型,一个查询策略基于不确定性的估计来设计选择性采样,但是不确定性度量方法各不相同: