1. Introduction
2. Preliminaries
考虑的是 Finite-horizon Episodic MDP ,分别代表状态集合、动作集合、每个 episode 的长度。 和 分别是分步/Time-inhomogeneous 的状态转移核与奖励函数。假设 是可测空间、 是有限集合,且 。对每个 , 表示在第 步、状态为 、采取动作 时对下一状态的转移分布; 是第 步的确定性奖励函数。这里奖励函数可以是随机的,本文的结果可以泛化到这种情形。
智能体与该分幕 MDP 的交互过程如下:在每一幕,初始状态 对抗性地随机指定,随后对每个时间步 ,智能体观察到状态 ,选择动作 并获得奖励 ,环境按照概率测度 采样产生新状态 。当到达 时本幕结束,不再获得奖励。
策略 是函数 ,其中 表示在第 步处于状态 时所采取的动作。由于在每一个时间步对应的动作价值函数和价值函数都不同,因此必须考虑每一个时间步对应的策略。对应的是价值函数和动作价值函数
由于动作空间和幕长度都有限,因此一定存在一个最优策略 使得 对所有 成立。使用 ,策略 的 Bellman 方程写作
在分幕 MDP 设置下,Agent 目标是在和环境的交互过程中学得最优策略:对于每一个 ,在第 幕的开始,对手会对抗挑选一个初始状态 ,Agent 挑选出策略 ,使用该策略与环境交互直至幕结束。使用 衡量当前策略的遗憾,总计遗憾定义为
我们研究的核心是 Linear MDP,在这里 状态转移和奖励函数 被假设为 在某一个特征映射上是线性的,但是策略的形式并没有被假设为线性的。这样的假设可以推出一个关键性质,动作价值函数也是线性的。注意,这里的线性假设类似于统计建模中的数据生成机制的假设。
Assumption: Linear MDP: 是线性的,当存在一个特征映射 ,使得对于每一个 ,存在 个定义在 上的未知的符号测度 以及一个未知的向量 ,使得对于任意
这里我们不失一般性地假设特征映射 被归一化了,即对于所有 ,,并且对于所有 ,。
虽然这里面假设了线性,但是转移核 仍然可能有无限的自由度,因为 是一个未知的测度,而不是一个有限维的矩阵参数化的形式。熟悉的 Tabular MDP 就是一个 Linear MDP。Linear MDP 的最关键性质是其动作价值函数的线性性,因此在设计 RL 算法时只需要关注线性的 Q 函数就可以。
Property: Linearity of Action-value Function in Linear MDP:对于一个 Linear MDP 和其任意策略 ,存在未知的参数向量 ,使得对于所有 ,都有 。