AURORA

Contributions

3. Preliminaries

我们主要考虑两种设定：上下文老虎机/Contextual Bandits 设定和模仿学习/Imitation Learning 设定。

3.1 Contextual Bandits Setting

Contextual Dueling Bandit 下，我们假设有一个 Context Set $X$ 和一个动作空间 $A = [A]$ 。在每一轮 $t \in [T]$ 中，环境会对抗性的/Adversarially 选择一个上下文 $x_{t}$ ，学习者的任务是决定是否向专家发起查询。如果决定查询，就选择一个动作对 $(a_{t}, b_{t}) \in A \times A$ ，随后会收到一个 带噪声的反馈 $y_{t} \in {- 1, 1}$ ，指示 $a_{t}$ 和 $b_{t}$ 哪个更好。

形式化来讲，我们假设专家依赖于一个偏好函数/Preference Function $f^{⋆} : X \times A \times A \to [- 1, 1]$ 。基于这个偏好函数，其带噪声的反馈 $y_{t}$ 按照下述方式进行采样：

Pr (a_{t} ≻ b_{t} ∣ x_{t}) = Pr (y_{t} = 1 ∣ x_{t}, a_{t}, b_{t}) = ϕ (f^{⋆} (x_{t}, a_{t}, b_{t}))

其中 $ϕ : [- 1, 1] \to [0, 1]$ 是链接函数/Link Function，其满足 $ϕ (- d) + ϕ (d) = 1$ 。如果学习者不进行查询，它仍然需要选择一对动作，但是不受到任何反馈， $Z_{t} \in {0, 1}$ 指示学习者是否在第 $t$ 轮进行了查询。对于偏好函数，其一般要假设满足一定的关于序关系的性质：

Assumption：我们假设 $f^{⋆}$ 在函数类 $F$ 中，且函数类 $F$ 中的所有函数都满足以下两个性质：传递性/Transitivity，对于任何上下文 $x \in X$ 和动作 $a, b, c \in A$ ，如果 $f (x, a, b) > 0$ 且 $f (x, b, c) > 0$ ，那么 $f (x, a, c) > 0$ ；反对称性/Anti-symmetry，对于任何上下文 $x \in X$ 和动作 $a, b \in A$ ，有 $f (x, a, b) = - f (x, b, a)$ 。

传递性意味着偏好是可以排序的,反对称性决定了偏好方向的一致性，即如果 $a$ 比 $b$ 好，那么 $b$ 一定比 $a$ ，这就避免了回环，因此最优摇臂一定存在。最优臂定义位对于任意 $f \in F$ 和上下文 $x \in X$ ，存在一个臂 $a \in A$ ，使得对于任意臂 $b \in A$ 都有 $f (x, a, b) \geq 0$ 。我们将这个最佳臂不失一般性地记为 $π_{f} (x) := a$ 。

我们直接可以将偏好函数 $f^{⋆}$ 建模为奖励差值的形式：假设存在一个奖励函数 $r^{⋆} : X \times A \to [0, 1]$ ，我们直接定义 $f^{⋆} (x, a, b) = r^{⋆} (x, a) - r^{⋆} (x, b)$ 。在这种情况下，通常会选择 $ϕ (d) = 1/ (1 + exp (- d))$ ，这对应了 Bradley-Terry-Luce/BTL 模型，在实践中这样的模型用于学习奖励模型。

对于上下文老虎机设定，学习者的目标是最小化遗憾/Regret 和查询次数/Queries，定义如下：

Regret_{T}^{CB} : = t = 1 \sum T (f^{⋆} (x_{t}, π_{f^{⋆}} (x_{t}), a_{t}) + f^{⋆} (x_{t}, π_{f^{⋆}} (x_{t}), b_{t})), Queries_{T}^{CB} : = t = 1 \sum T Z_{t} .

3.2 Imitation Learning Setting

Imitation Learning 设定中，我们考虑一个有限视界/Finite-Horizon 的 MDP，由元组 $M (X, A, r, P, H)$ 定义，其中 $X$ 是状态空间， $A$ 是动作空间， $P$ 是转移函数， $r : X \times A \to [0, 1]$ 是奖励函数， $H$ 是每一集的长度。

交互过程如下面所述：在每一集 $t \in [T]$ 开始时，学习者接收到一个初始状态 $x_{t, 0}$ （这也可以是对抗的）。然后，学习者与环境交互 $H$ 步。在每一步 $h$ ，学习者首先决定是否进行查询。如果进行查询，学习者需要选择一对动作 $(a_{t, h}, b_{t, h}) \in A \times A$ ，随后会收到一个反馈 $y_{t, h} \in {- 1, 1}$ ，指示从专家角度看哪个动作更优。这里的反馈采样自：

Pr (a_{t, h} ≻ b_{t, h} ∣ x_{t, h}, h) = Pr (y_{t, h} = 1 ∣ x_{t, h}, a_{t, h}, b_{t, h}, h) = ϕ (f_{h}^{⋆} (x_{t, h}, a_{t, h}, b_{t, h})) .

剩余基本上和在 Contextual Bandits 设定中一样，无论学习者是否进行了查询，它随后都会从 $a_{t, h}, b_{t, h}$ 选择一个动作并转移，在 $H$ 步之后，下一集开始。 $Z_{t, h} \in {0, 1}$ 指示学习者是否决定在第 $t$ 集的第 $h$ 步进行查询。我们假设函数空间 $F$ 是 $H$ 个类的乘积，即 $F = F_{0} \times \dots \times F_{H - 1}$ ，其中对于每个 $h$ ，我们使用 $F_{h} = {f : X \times A \times A \to [- 1, 1]}$ 来建模 $f_{h}^{⋆}$ ，并假设 $F_{h}$ 满足传递性和反对称性假设。

策略/Policy 是一个映射 $π : X \to Δ (A)$ 。对应定义价值函数和动作价值函数。在模仿学习设定下，我们假设专家具有一个马尔可夫策略/Markov Policy $π_{e}$ ，并且专家的偏好依赖于 $π_{e}$ 下的后续累积奖励/Reward-to-Go 来决定偏好，形式化讲就是 $f_{h}^{⋆} (x, a, b) = Q_{h}^{π_{e}} (x, a) - Q_{h}^{π_{e}} (x, b)$ 。因此，学习者的目标仍然是最小化遗憾和查询次数：

Regret_{T}^{IL} : = t = 1 \sum T (V_{0}^{π_{e}} (x_{t, 0}) - V_{0}^{π_{t}} (x_{t, 0})), Queries_{T}^{IL} : = t = 1 \sum T h = 0 \sum H - 1 Z_{t, h} .

3.3 Link Function and Online Regression Oracle

我们一般假设 $ϕ$ 是某个 $α$ -强凸函数 $Φ : [- 1, 1] \to R$ 的导数，并将相关联的损失函数定义为 $ℓ_{ϕ} (d, y) = Φ (d) - d (y + 1) /2$ 。此外，我们的算法利用了一个在线回归预言机/Online Regression Oracle，在线地输出一个函数 $f_{t} \in F$ ，对于任意数据序列在 $F$ 上具有次线性的遗憾保证：

Assumption：我们假设学习者可以使用一个 Online Regression Oracle，对于任意序列 ${(x_{1}, a_{1}, b_{1}, y_{1}), \dots, (x_{T}, a_{T}, b_{T}, y_{T})}$ ，这里序列每一项的标签 $y_{t}$ 生成自 $y_{t} \sim ϕ (f^{*} (x_{t}, a_{t}, b_{t}))$ ，我们有：

t = 1 \sum T ℓ_{ϕ} (f_{t} (x_{t}, a_{t}, b_{t}), y_{t}) - f \in F in f ℓ_{ϕ} (f (x_{t}, a_{t}, b_{t}), y_{t}) \leq Υ (F, T)

这里的上界 $Υ (F, T)$ 相对于 $T$ 次线性增长。若上下文清晰，我们定义 $Υ := Υ (F, T)$ 。这里的 $Υ$ 代表遗憾上界，在许多情况下通常是 $T$ 或函数类 $F$ 复杂度/大小的对数阶。

要理解这里的设计，我们需要先了解算法的机制：算法大致流程是在每一轮 $t$ 之前都可以得到一个偏好函数 $f_{t}$ ，然后基于这个函数计算出版本空间/Version Space $F_{t}$ 与候选摇臂集/Set of Candidate Arms $A_{t}$ ，随后基于这些集合来计算不确定度及其阈值，从而决定是否进行查询。在决定查询之后，才可以获得该轮的反馈 $y_{t}$ ，并将 $(x_{t}, a_{t}, b_{t}, y_{t})$ 添加到数据集中，进而根据 Oracle 来得到新一轮的偏好函数 $f_{t + 1}$ 。

因此，Oracle 需要设计为在线地最小化某种回归损失，而不是朴素的经验风险最小化，其遗憾是相对于整个在线学习过程的，计算每一轮老的偏好函数 $f_{t}$ 在新数据点 $(x_{t}, a_{t}, b_{t}, y_{t})$ 上的损失，进而拥有根据数据迭代和预测未来的能力。这样的设计使得算法和理论均模块化，

4. Algorithm on Contextual Dueling Bandits

AROURA 算法原为 Active Preference Query for Contextual Bandits 算法，在每一轮 $t \in [T]$ 中

Paper List

Explorer

Contextual Bandits and Imitation Learning via Preference-Based Active Queries

3. Preliminaries

3.1 Contextual Bandits Setting

3.2 Imitation Learning Setting

3.3 Link Function and Online Regression Oracle

4. Algorithm on Contextual Dueling Bandits

Table of Contents

Backlinks

Paper List

Explorer

Contextual Bandits and Imitation Learning via Preference-Based Active Queries

2. Related Work

3. Preliminaries

3.1 Contextual Bandits Setting

3.2 Imitation Learning Setting

3.3 Link Function and Online Regression Oracle

4. Algorithm on Contextual Dueling Bandits

Table of Contents

Backlinks