Abstract
Contributions
1. Introduction
2. Related Work
3. Preliminaries
3.1 Reinforcement Learning Setup
本文考虑的是一个有限时域的 MDP ,策略 将当前状态映射为动作分布。我们有一组 个黑盒 Oracle ,总集/Episode 数为 。对一个给定的函数 ,定义相对于 的广义 函数:
当 取为某个策略 的价值函数 时,上式就退化为该策略的标准 函数 。令 表示在初始状态分布 下,执行策略 于时间步 的状态分布。则策略 的平均状态分布可以写为
因此,在初始分布 下,策略 的价值函数为
这里 表示从状态 出发、按策略 生成的后续轨迹分布。本文目标是找到一个策略函数 ,最大化相对于初始分布 的 步累计回报。与之相关的优势函数定义为
3.2 Algorithms for Learning from Multiple Oracles
考虑智能体可以访问一组黑盒 Oracles ,并讨论若干种从该集合学习的思路。
Single-best Oracle :最简单最基础的 baseline,选择一个整体上最好的 Oracle ,其定义为事后最优/Hindsight Optimal:。但这个 baseline 不能体现算法优越性,因为它没有利用不同 Oracle 在不同状态下各有所长的逐状态最优性。
Max-following :由于最优 Oracle 会随状态变化,可以使用每个 Oracle 在状态 的价值 来表达其在该状态下的专业程度。 Max-following 策略在每个状态独立选择价值最大的 Oracle:
Max-following 策略可以被理解为一种贪心策略:在任意状态都跟随当前看起来最强的 Oracle。
Max-aggregation :本文使用 Max-aggregation 技术作为 benchmark,其相对于 Max-following 策略进行一步的策略改进。定义基线价值函数为
则 Max-aggregation 策略为
在单策略的情况下,这就是一步策略改进,因此可以保证不差于 Max-following 策略。在多策略的情况下,Max-aggregation 策略和 Max-following 策略一般不可直接比较;除非存在某个 Oracle 在所有状态都统一优于其他 Oracle。
算法的关键是高效地计算出 ,需要知道每一个专家在每个状态的价值函数 。当前我们的设定是分幕式交互模仿学习,无法访问专家的价值函数,但是可以遵循前面 AggreVaTe/AggreVaTeD 的思路,将模仿学习规约为一个在线学习问题,从而估计出每个专家在每个状态的价值函数。
我们将