Linear Approximation

1. Introduction

2. Preliminaries

考虑的是 Finite-horizon Episodic MDP $MDP (S, A, H, P, r)$ ，分别代表状态集合、动作集合、每个 episode 的长度。 $P = {P_{h}}_{h = 1}^{H}$ 和 $r = {r_{h}}_{h = 1}^{H}$ 分别是分步/Time-inhomogeneous 的状态转移核与奖励函数。假设 $S$ 是可测空间、 $A$ 是有限集合，且 $∣ A ∣ = A$ 。对每个 $h \in [H]$ ， $P_{h} (\cdot ∣ x, a)$ 表示在第 $h$ 步、状态为 $x$ 、采取动作 $a$ 时对下一状态的转移分布； $r_{h} : S \times A \to [0, 1]$ 是第 $h$ 步的确定性奖励函数。这里奖励函数可以是随机的，本文的结果可以泛化到这种情形。

智能体与该分幕 MDP 的交互过程如下：在每一幕，初始状态 $x_{1}$ 对抗性地随机指定，随后对每个时间步 $h \in [H]$ ，智能体观察到状态 $x_{h} \in S$ ，选择动作 $a_{h} \in A$ 并获得奖励 $r_{h} (x_{h}, a_{h})$ ，环境按照概率测度 $P_{h} (\cdot ∣ x_{h}, a_{h})$ 采样产生新状态 $x_{h + 1}$ 。当到达 $x_{H + 1}$ 时本幕结束，不再获得奖励。

策略 $π$ 是函数 $π : S \times [H] \to A$ ，其中 $π (x, h)$ 表示在第 $h$ 步处于状态 $x$ 时所采取的动作。由于在每一个时间步对应的动作价值函数和价值函数都不同，因此必须考虑每一个时间步对应的策略。对应的是价值函数和动作价值函数

V_{h}^{π} (x) Q_{h}^{π} (x, a) : = E [h^{'} = h \sum H r_{h^{'}} (x_{h^{'}}, π (x_{h^{'}}, h^{'})) ∣ x_{h} = x], \forall x \in S, h \in [H] . : = r_{h} (x, a) + E [h^{'} = h + 1 \sum H r_{h^{'}} (x_{h^{'}}, π (x_{h^{'}}, h^{'})) ∣ x_{h} = x, a_{h} = a], \forall (x, a) \in S \times A, h \in [H] .

由于动作空间和幕长度都有限，因此一定存在一个最优策略 $π^{⋆}$ 使得 $V_{h}^{⋆} (x) = sup_{π} V_{h}^{π} (x)$ 对所有 $x, h$ 成立。使用 $[P_{h} V_{h + 1}] (x, a) : = E_{x^{'} \sim P_{h} (\cdot ∣ x, a)} [V_{h + 1} (x^{'})]$ ，策略 $π$ 的 Bellman 方程写作

Q_{h}^{π} (x, a) = (r_{h} + P_{h} V_{h + 1}^{π}) (x, a), V_{h}^{π} (x) = Q_{h}^{π} (x, π_{h} (x)), V_{H + 1}^{π} (x) = 0 Q_{h}^{⋆} (x, a) = (r_{h} + P_{h} V_{h + 1}^{⋆}) (x, a), V_{h}^{⋆} (x) = a \in A max Q_{h}^{⋆} (x, a), V_{H + 1}^{⋆} (x) = 0

在分幕 MDP 设置下，Agent 目标是在和环境的交互过程中学得最优策略：对于每一个 $k \geq 1$ ，在第 $k$ 幕的开始，对手会对抗挑选一个初始状态 $s_{1}^{k}$ ，Agent 挑选出策略 $π^{k}$ ，使用该策略与环境交互直至幕结束。使用 $V_{1}^{⋆} (x_{1}^{k}) - V_{1}^{π^{k}} (x_{1}^{k})$ 衡量当前策略的遗憾，总计遗憾定义为

Regret (K) = k = 1 \sum K [V_{1}^{⋆} (x_{1}^{k}) - V_{1}^{π^{k}} (x_{1}^{k})]

我们研究的核心是 Linear MDP，在这里 状态转移和奖励函数 被假设为 在某一个特征映射上是线性的，但是策略的形式并没有被假设为线性的。这样的假设可以推出一个关键性质，动作价值函数也是线性的。注意，这里的线性假设类似于统计建模中的数据生成机制的假设。

Assumption: Linear MDP： $MDP (S, A, H, P, r)$ 是线性的，当存在一个特征映射 $ϕ : S \times A \to R^{d}$ ，使得对于每一个 $h \in [H]$ ，存在 $d$ 个定义在 $S$ 上的未知的符号测度 $μ_{h} = (μ_{h}^{(1)}, \dots, μ_{h}^{(d)})$ 以及一个未知的向量 $θ_{h} \in R^{d}$ ，使得对于任意 $(x, a) \in S \times A$

P_{h} (\cdot ∣ x, a) = ⟨ ϕ (x, a), μ_{h} (\cdot)⟩, r_{h} (x, a) = ⟨ ϕ (x, a), θ_{h} ⟩

这里我们不失一般性地假设特征映射 $ϕ$ 被归一化了，即对于所有 $(x, a)$ ， $∥ ϕ (x, a)∥ \leq 1$ ，并且对于所有 $h$ ， $max {∥ μ_{h} (S)∥, ∥ θ_{h} ∥} \leq d$ 。

虽然这里面假设了线性，但是转移核 $P_{h} (\cdot ∣ x, a)$ 仍然可能有无限的自由度，因为 $μ_{h}$ 是一个未知的测度，而不是一个有限维的矩阵参数化的形式。熟悉的 Tabular MDP 就是一个 Linear MDP。Linear MDP 的最关键性质是其动作价值函数的线性性，因此在设计 RL 算法时只需要关注线性的 Q 函数就可以。

Property: Linearity of Action-value Function in Linear MDP：对于一个 Linear MDP 和其任意策略 $π$ ，存在未知的参数向量 ${w_{h}^{π}}_{h = 1}^{H}$ ，使得对于所有 $(x, a, h) \in S \times A \times [H]$ ，都有 $Q_{h}^{π} (x, a) = ⟨ ϕ (x, a), w_{h}^{π} ⟩$ 。

Paper List

Explorer

Provably Efficient Reinforcement Learning with Linear Function Approximation

1. Introduction

2. Preliminaries

Table of Contents