MAPS

Abstract

Contributions

1. Introduction

3. Preliminaries

3.1 Reinforcement Learning Setup

本文考虑的是一个有限时域的 MDP $M_{0} = ⟨ S, A, P, r, H ⟩$ ，策略 $π : S \to Δ (A)$ 将当前状态映射为动作分布。我们有一组 $K$ 个黑盒 Oracle $Π = {π_{k}}_{k = 1}^{K}$ ，总集/Episode 数为 $N$ 。对一个给定的函数 $f : S \to R$ ，定义相对于 $f$ 的广义 $Q$ 函数：

Q^{f} (s, a) ≐ r (s, a) + E_{s^{'} \sim P (\cdot ∣ s, a)} [f (s^{'})]

当 $f (s)$ 取为某个策略 $π$ 的价值函数 $V^{π} (s)$ 时，上式就退化为该策略的标准 $Q$ 函数 $Q^{π} (s, a)$ 。令 $d_{t}^{π} \in Δ (S)$ 表示在初始状态分布 $d_{0} \in Δ (S)$ 下，执行策略 $π$ 于时间步 $t$ 的状态分布。则策略 $π$ 的平均状态分布可以写为

d^{π} ≐ \frac{1}{H} t = 0 \sum H - 1 d_{t}^{π} .

因此，在初始分布 $d_{0}$ 下，策略 $π$ 的价值函数为

V^{π} (d_{0}) ≐ E_{s_{0} \sim d_{0}} [V^{π} (s_{0})] ≐ E_{s_{0} \sim d_{0}} [E_{τ_{0} \sim ρ^{π} (\cdot ∣ s_{0})} [t = 0 \sum H - 1 r (s_{t}, a_{t})]],

这里 $ρ^{π} (τ_{t} ∣ s_{t})$ 表示从状态 $s_{t}$ 出发、按策略 $π$ 生成的后续轨迹分布。本文目标是找到一个策略函数 $π$ ，最大化相对于初始分布 $d_{0}$ 的 $H$ 步累计回报。与之相关的优势函数定义为

A^{f} (s, a) ≐ Q^{f} (s, a) - f (s) ≐ r (s, a) + E_{s^{'} \sim P (\cdot ∣ s, a)} [f (s^{'})] - f (s) .

3.2 Algorithms for Learning from Multiple Oracles

考虑智能体可以访问一组黑盒 Oracles $Π = {π_{k}}_{k = 1}^{K}$ ，并讨论若干种从该集合学习的思路。

Single-best Oracle $π^{⋆}$ ：最简单最基础的 baseline，选择一个整体上最好的 Oracle $π^{⋆}$ ，其定义为事后最优/Hindsight Optimal： $π^{⋆} : = ar g max_{π \in Π} V^{π} (d_{0})$ 。但这个 baseline 不能体现算法优越性，因为它没有利用不同 Oracle 在不同状态下各有所长的逐状态最优性。

Max-following $π^{∙}$ ：由于最优 Oracle 会随状态变化，可以使用每个 Oracle 在状态 $s$ 的价值 $V_{k} (s)$ 来表达其在该状态下的专业程度。 Max-following 策略在每个状态独立选择价值最大的 Oracle：

π^{∙} (a ∣ s) ≐ π^{k^{⋆}} (a ∣ s), k^{⋆} ≐ k \in [K] ar g max V_{k} (s) . (1)

Max-following 策略可以被理解为一种贪心策略：在任意状态都跟随当前看起来最强的 Oracle。

Max-aggregation $π_{m a x}$ ：本文使用 Max-aggregation 技术作为 benchmark，其相对于 Max-following 策略进行一步的策略改进。定义基线价值函数为

f^{m a x} (s) ≐ k \in [K] max V_{k} (s) .

则 Max-aggregation 策略为

π^{m a x} (a ∣ s) ≐ δ_{a = a^{⋆}}, a^{⋆} ≐ a \in A ar g max A^{f^{m a x}} (s, a) .

在单策略的情况下，这就是一步策略改进，因此可以保证不差于 Max-following 策略。在多策略的情况下，Max-aggregation 策略和 Max-following 策略一般不可直接比较；除非存在某个 Oracle 在所有状态都统一优于其他 Oracle。

算法的关键是高效地计算出 $f^{m a x} (s)$ ，需要知道每一个专家在每个状态的价值函数 $V_{k} (s)$ 。当前我们的设定是分幕式交互模仿学习，无法访问专家的价值函数，但是可以遵循前面 AggreVaTe/AggreVaTeD 的思路，将模仿学习规约为一个在线学习问题，从而估计出每个专家在每个状态的价值函数。

我们将

Paper List

Explorer

Active Policy Improvement from Multiple Black-box Oracles

1. Introduction

3. Preliminaries

3.1 Reinforcement Learning Setup

3.2 Algorithms for Learning from Multiple Oracles

4. Algorithm

5. Theoretical Analysis

Table of Contents

Backlinks

Paper List

Explorer

Active Policy Improvement from Multiple Black-box Oracles

1. Introduction

2. Related Work

3. Preliminaries

3.1 Reinforcement Learning Setup

3.2 Algorithms for Learning from Multiple Oracles

4. Algorithm

5. Theoretical Analysis

Table of Contents

Backlinks