Preference-Based RL

时间限制：本综述发布于 2017 年，有的算法可能过时了

1. Introduction

2. Preliminaries

Preference-based Reinforcement Learning/PbRL 旨在尝试利用状态、动作或轨迹之间的偏好来解决强化学习问题，目标是学到一个策略，使得该策略与专家的偏好尽可能一致。相较于传统的强化学习，专家的反馈不是数值化的奖励信号，而是成对的偏好比较/Preferences。

2.2 Markov Decision Processes with Preferences

Markov Decision Processes with Preferences/MDPP 是 PbRL 的一个形式化数学框架，其基于 Markov 提出的 Markov Decision Processes without Reward/MDP\R，但是将其扩展到了基于偏好的反馈。一个 MDPP 定义为一个六元组 $(S, A, μ, δ, γ, ρ)$ ，其中包含状态空间 $S$ 和动作空间 $A$ 。 $μ (s)$ 是可能的初始状态分布， $δ (s^{'} ∣ s, a)$ 是状态转移模型， $γ \in [0, 1)$ 是折扣因子。策略 $π (a ∣ s)$ 是一个条件分布，根据当前状态分配动作选择的概率。

和传统的 MDP 不同，我们不存在数值奖励信号 $r (s, a)$ 。相反，智能体可以观察到轨迹上的偏好关系 $τ_{i} ≻ τ_{j}$ ，我们也会讨论基于状态和动作的偏好，并且证明其可以规约到轨迹偏好。我们进一步假设，给定的一对轨迹的偏好是按照概率分布 $ρ$ 随机生成的，因为专家可能会犯错，从而引入噪声， $ρ (τ_{i} ≻ τ_{j})$ 表示对于给定的一对轨迹 $(τ_{i}, τ_{j})$ ， $τ_{i} ≻ τ_{j}$ 成立的概率。

这个分布 $ρ$ 通常是未知的，但智能体可以观察到一组偏好 $ζ = {ζ_{i}} = {τ_{i 1} ≻ τ_{i 2}}_{i = 1 \dots N}$ ，这是使用 $ρ$ 采样得到的。 $Υ$ 表示作为 $ζ$ 一部分的所有轨迹的集合，或者说是所有被专家评估过的轨迹集合。PbRL 的一个关键问题就是得到一组具有代表性的偏好 $ζ$ 。

为了简化问题，两种比较典型的方法是 忽略专家的随机性 以及 严格假设偏好，严格假设偏好意味着全序关系，也就是说对于任何一对轨迹 $τ_{i}$ 和 $τ_{j}$ ，两个严格偏好关系中恰好有一个成立，即 $ρ (τ_{i} ≻ τ_{j}) = 1 - ρ (τ_{j} ≻ τ_{i})$ 。因此，不存在不可比较的轨迹对。这里的不可比较性/Incomparability 通常发生在基于多个标准评估轨迹时，此时不可能在改善一个标准的同时不降低另一个标准。如果存在无法定义偏好关系的不可比较对，则偏好形成偏序关系。

2.3 Objective

整体的目标是找到一个策略 $π^{*}$ ，使其最大程度地符合给定的偏好集 $ζ$ 。也就是说：

τ_{1} ≻ τ_{2} ⟺ Pr_{π} (τ_{1}) > Pr_{π} (τ_{2})

这里面 $Pr_{π} (τ)$ 是使用策略 $π$ 实现轨迹 $τ$ 的概率 $μ (s_{0}) \prod_{t = 0}^{∣ τ ∣} π (a_{t} ∣ s_{t}) δ (s_{t + 1} ∣ s_{t}, a_{t})$ 。然而上述条件一般是不够的，因为不同轨迹的概率差异可能微乎其微。此外，由于专家的随机性，观察到的偏好也可能相互矛盾。将问题转化为优化问题可以解决这个矛盾：

τ_{1} ≻ τ_{2} ⟺ π^{*} = π ar g max (Pr_{π} (τ_{1}) - Pr_{π} (τ_{2}))

意思是要最大化两个轨迹概率的差异。然而，这个定义忽略了如何处理多个偏好的问题。

一般来讲，算法的目标都是最小化单偏好损失 $L (π, ζ_{i})$ ，例如， $L (π, τ_{1} ≻ τ_{2}) = - (Pr_{π} (τ_{1}) - Pr_{π} (τ_{2}))$ 。 $L$ 的参数因方法而异。多偏好情况下，最小化一个偏好的损失可能会干扰另一个偏好的最小化，因此，如果没有进一步的信息，我们无法定义单一的损失函数，而只能指定一个多目标标准 $L (π, ζ) = (L (π, ζ_{0}), L (π, ζ_{1}), \dots, L (π, ζ_{n}))$ 。

优化这种多目标损失会导致多个 Pareto-optimal Solutions，使用一种 Weight Pairwise Disagreement Loss 可以将其转化为单目标优化： $L (π, ζ) = \sum_{i = 1}^{N} α_{i} L (π, ζ_{i})$ ，其中 $α_{i}$ 是分配给 $ζ_{i}$ 的权重或重要性。

在 PbRL，我们的目标是最大概率生成 Undominated 轨迹，同时尽可能少生成 Dominated 轨迹，也就是生成序关系中处于顶部的那些轨迹。因此，涉及最顶部的轨迹的偏好应该具有最高的权重，因为相应的偏好是最重要的。这样的偏好设置应该多样，而非单一的均匀分布。

2.4 Preference-Based Reinforcement Learning Algorithms

3. Design Principles for PbRL

3.1 Types of Feedback

在算法设计中，我们一般可以得到下面三种反馈类型：Action Preferences/动作偏好、 State Preferences/状态偏好和 Trajectory Preferences/轨迹偏好。这些偏好类型对专家和算法提出了不同的挑战，我们将在本节中讨论这些区别。

3.1.1 Action Preferences

动作偏好比较同一状态下的两个动作。动作偏好 $a_{i 1} ≻_{s} a_{i 2}$ 表示在状态 $s$ 下，动作 $a_{i 1}$ 应该优于 $a_{i 2}$ 。

Paper List

Explorer

A Survey of Preference-Based Reinforcement Learning Methods

1. Introduction

2. Preliminaries

2.2 Markov Decision Processes with Preferences

2.3 Objective

2.4 Preference-Based Reinforcement Learning Algorithms

3. Design Principles for PbRL

3.1 Types of Feedback

3.1.1 Action Preferences

Table of Contents

Paper List

Explorer

A Survey of Preference-Based Reinforcement Learning Methods

1. Introduction

2. Preliminaries

2.2 Markov Decision Processes with Preferences

2.3 Objective

2.4 Preference-Based Reinforcement Learning Algorithms

2.5 Related Problem Settings

3. Design Principles for PbRL

3.1 Types of Feedback

3.1.1 Action Preferences

Table of Contents