时间限制:本综述发布于 2017 年,有的算法可能过时了

1. Introduction

2. Preliminaries

Preference-based Reinforcement Learning/PbRL 旨在尝试利用状态、动作或轨迹之间的偏好来解决强化学习问题,目标是学到一个策略,使得该策略与专家的偏好尽可能一致。相较于传统的强化学习,专家的反馈不是数值化的奖励信号,而是成对的偏好比较/Preferences。

2.2 Markov Decision Processes with Preferences

Markov Decision Processes with Preferences/MDPP 是 PbRL 的一个形式化数学框架,其基于 Markov 提出的 Markov Decision Processes without Reward/MDP\R,但是将其扩展到了基于偏好的反馈。一个 MDPP 定义为一个六元组 ,其中包含状态空间 和动作空间 是可能的初始状态分布, 是状态转移模型, 是折扣因子。策略 是一个条件分布,根据当前状态分配动作选择的概率。

和传统的 MDP 不同,我们不存在数值奖励信号 。相反,智能体可以观察到轨迹上的偏好关系 ,我们也会讨论基于状态和动作的偏好,并且证明其可以规约到轨迹偏好。我们进一步假设,给定的一对轨迹的偏好是按照概率分布 随机生成的,因为专家可能会犯错,从而引入噪声, 表示对于给定的一对轨迹 成立的概率。

这个分布 通常是未知的,但智能体可以观察到一组偏好 ,这是使用 采样得到的。 表示作为 一部分的所有轨迹的集合,或者说是所有被专家评估过的轨迹集合。PbRL 的一个关键问题就是得到一组具有代表性的偏好

为了简化问题,两种比较典型的方法是 忽略专家的随机性 以及 严格假设偏好,严格假设偏好意味着全序关系,也就是说对于任何一对轨迹 ,两个严格偏好关系中恰好有一个成立,即 。因此,不存在不可比较的轨迹对。这里的不可比较性/Incomparability 通常发生在基于多个标准评估轨迹时,此时不可能在改善一个标准的同时不降低另一个标准。如果存在无法定义偏好关系的不可比较对,则偏好形成偏序关系

2.3 Objective

整体的目标是找到一个策略 ,使其最大程度地符合给定的偏好集 。也就是说:

这里面 是使用策略 实现轨迹 的概率 。然而上述条件一般是不够的,因为不同轨迹的概率差异可能微乎其微。此外,由于专家的随机性,观察到的偏好也可能相互矛盾。将问题转化为优化问题可以解决这个矛盾:

意思是要最大化两个轨迹概率的差异。然而,这个定义忽略了如何处理多个偏好的问题。

一般来讲,算法的目标都是最小化单偏好损失 ,例如, 的参数因方法而异。多偏好情况下,最小化一个偏好的损失可能会干扰另一个偏好的最小化,因此,如果没有进一步的信息,我们无法定义单一的损失函数,而只能指定一个多目标标准

优化这种多目标损失会导致多个 Pareto-optimal Solutions,使用一种 Weight Pairwise Disagreement Loss 可以将其转化为单目标优化:,其中 是分配给 的权重或重要性。

在 PbRL,我们的目标是最大概率生成 Undominated 轨迹,同时尽可能少生成 Dominated 轨迹,也就是生成序关系中处于顶部的那些轨迹。因此,涉及最顶部的轨迹的偏好应该具有最高的权重,因为相应的偏好是最重要的。这样的偏好设置应该多样,而非单一的均匀分布。

2.4 Preference-Based Reinforcement Learning Algorithms

3. Design Principles for PbRL

3.1 Types of Feedback

在算法设计中,我们一般可以得到下面三种反馈类型:Action Preferences/动作偏好、 State Preferences/状态偏好 和 Trajectory Preferences/轨迹偏好。这些偏好类型对专家和算法提出了不同的挑战,我们将在本节中讨论这些区别。

3.1.1 Action Preferences

动作偏好比较同一状态下的两个动作。动作偏好 表示在状态 下,动作 应该优于