Abstract

Contributions

1. Introduction

对于拥有单个专家的模仿学习,专家策略的汇报为其提供了一个天然的基准去匹配或超越,大多数现有的模仿学习技术都假设这样的设定。然而,在现实中,通常很难获得一个高质量的专家策略。相反,可能只有多个次优专家可用,每个专家在不同的情况下都有其优势。在本文,我们提出这样的问题:**如何利用编码在多个可能次优的专家策略中的领域知识来进行学习?**我们在交互式模仿学习的设定下研究这个问题。

直觉上,因为更多的专家策略可以提供关于问题领域的更多信息,强化学习智能体应该能够比使用单个专家更快地学到一个好的策略。然而,实际上智能体并不知道每个专家的特性,它看到的仅仅是来自不同专家策略的相互冲突/Conflicting 的演示。解决这种分歧/Disagreement 并非易事,因为可能不存在一个能在所有方面都全面超越其他专家的单一专家,而且每个专家策略的质量都是未知的。虽然最近很多工作,比如 InfoGAIL、AC-Teach 和 OIL,已经开始研究这个问题,但它们都回避了两个基本问题:

  • 在多智能体模仿学习的设定下,什么是衡量策略性能的合理基准/Benchmark?这应类似于传统模仿学习中的单专家策略质量。
  • 是否存在一种系统性的方法,将多个次优专家缝合/Stitch 成一个更强的基线/Baseline,并让我们能够在此基础上进一步提升?

这就是这篇文章的贡献,其提出一个新的 Max-Aggregated Baseline 基准,自然的将不同的专家策略组合在一起,在每一个状态下都比原来所有专家都表现更好,进而设计了一种新的模仿学习算法 MAMBA,使用 Roll-in/Roll-out 的 Interactive 范式与专家交互,基于 Generalized Advantage Estimation/GAE 思想设计 IL 梯度估计,并提供了基于遗憾的理论保证。

2. Preliminaries

2.1 Episodic Interactive Imitation Learning

考虑一个 Finite-horizon MDP,其状态空间为 ,动作空间为 ,时间视界为 ,初始状态分布为 ,转移概率为 ,奖励函数为 。我们假设 是固定但未知的。给定一类状态相关的策略 ,我们的目标是找到一个策略 ,使其最大化相对于初始状态分布 步回报。

为了处理非平稳过程,一般的做法是为每一个时间步 都定义一个转移核、奖励函数以及对应的价值函数,这里我们使用比较紧凑的写法:假设状态空间 被构造为一个扩充状态空间 ,其中 是某种基础状态空间,这样 中可以是非平稳的,并且使用下标 来强调时间索引,比如对于一个状态 ,其代表的是在时间 时刻的状态,且一次状态转移会使得时间索引增加 1。

这样我们最大化的目标可以写为:

这里面 表示在策略 下,从时刻 的状态 开始直到问题结束所生成的轨迹 的分布。