MAMBA

Abstract

Contributions

1. Introduction

对于拥有单个专家的模仿学习，专家策略的汇报为其提供了一个天然的基准去匹配或超越，大多数现有的模仿学习技术都假设这样的设定。然而，在现实中，通常很难获得一个高质量的专家策略。相反，可能只有多个次优专家可用，每个专家在不同的情况下都有其优势。在本文，我们提出这样的问题：**如何利用编码在多个可能次优的专家策略中的领域知识来进行学习？**我们在交互式模仿学习的设定下研究这个问题。

直觉上，因为更多的专家策略可以提供关于问题领域的更多信息，强化学习智能体应该能够比使用单个专家更快地学到一个好的策略。然而，实际上智能体并不知道每个专家的特性，它看到的仅仅是来自不同专家策略的相互冲突/Conflicting 的演示。解决这种分歧/Disagreement 并非易事，因为可能不存在一个能在所有方面都全面超越其他专家的单一专家，而且每个专家策略的质量都是未知的。虽然最近很多工作，比如 InfoGAIL、AC-Teach 和 OIL，已经开始研究这个问题，但它们都回避了两个基本问题：

在多智能体模仿学习的设定下，什么是衡量策略性能的合理基准/Benchmark？这应类似于传统模仿学习中的单专家策略质量。
是否存在一种系统性的方法，将多个次优专家缝合/Stitch 成一个更强的基线/Baseline，并让我们能够在此基础上进一步提升？

这就是这篇文章的贡献，其提出一个新的 Max-Aggregated Baseline 基准，自然的将不同的专家策略组合在一起，在每一个状态下都比原来所有专家都表现更好，进而设计了一种新的模仿学习算法 MAMBA，使用 Roll-in/Roll-out 的 Interactive 范式与专家交互，基于 Generalized Advantage Estimation/GAE 思想设计 IL 梯度估计，并提供了基于遗憾的理论保证。

2. Preliminaries

2.1 Episodic Interactive Imitation Learning

考虑一个 Finite-horizon MDP，其状态空间为 $S$ ，动作空间为 $A$ ，时间视界为 $T$ ，初始状态分布为 $d_{0} (s)$ ，转移概率为 $P (s^{'} ∣ s, a)$ ，奖励函数为 $r : S \times A \to [0, 1]$ 。我们假设 $d_{0}$ 、 $P$ 和 $r$ 是固定但未知的。给定一类状态相关的策略 $Π$ ，我们的目标是找到一个策略 $π \in Π$ ，使其最大化相对于初始状态分布 $d_{0}$ 的 $T$ 步回报。

为了处理非平稳过程，一般的做法是为每一个时间步 $t$ 都定义一个转移核、奖励函数以及对应的价值函数，这里我们使用比较紧凑的写法：假设状态空间 $S$ 被构造为一个扩充状态空间 $S = \overset{ˉ}{S} \times {0, \dots, T - 1}$ ，其中 $\overset{ˉ}{S}$ 是某种基础状态空间，这样 $P$ 和 $r$ 在 $S$ 中可以是非平稳的，并且使用下标 $t$ 来强调时间索引，比如对于一个状态 $s_{t}$ ，其代表的是在时间 $t$ 时刻的状态，且一次状态转移会使得时间索引增加 1。

这样我们最大化的目标可以写为：

V^{π} (d_{0}) : = E_{s_{0} \sim d_{0}} E_{ξ_{0} \sim ρ^{π} ∣ s_{0}} [t = 0 \sum T - 1 r (s_{t}, a_{t})]

这里面 $ρ^{π} (ξ_{t} ∣ s_{t})$ 表示在策略 $π$ 下，从时刻 $t$ 的状态 $s_{t}$ 开始直到问题结束所生成的轨迹 $ξ_{t} = s_{t}, a_{t}, \dots, s_{T - 1}, a_{T - 1}$ 的分布。

Paper List

Explorer

Policy Improvement via Imitation of Multiple Oracles

1. Introduction

2. Preliminaries

2.1 Episodic Interactive Imitation Learning

Table of Contents

Backlinks