TPIL

Contributions

本文提出了第三人称模仿学习/Third-Person Imitation Learning 问题，并给出了一个基于对抗模仿学习与域混淆/Domain Confusion 的无监督解决方案。核心思路是：当专家演示来自与智能体不同的视角（第三人称）时，传统的第一人称模仿学习方法会因为观测空间的系统性差异而失效。本文将 GAIL 的判别器拆分为特征提取器 $D_{F}$ 与分类器 $D_{R}$ ，并引入域判别器 $D_{D}$ 与梯度翻转层/Gradient Reversal Layer，迫使特征提取器产生域无关/Domain-Agnostic 的特征表示，从而使分类器能在不同视角下判断行为是否为专家行为。实验在三个 MuJoCo 环境中验证了该方法能从第三人称演示中成功学习策略。

本文的实验环境相对简单（50×50 像素图像、仅三个低维控制任务），域差异也较为有限（相机角度变化约 40 度或颜色改变）。方法假设专家与新手环境的底层动力学相同，仅观测视角不同，且需要从专家域同时收集专家和非专家的第三人称演示。这些条件在更复杂的现实场景中可能难以满足。

1. Introduction

强化学习/Reinforcement Learning/RL 的一个核心困难是奖励函数的设计：对每个任务都需要手动指定奖励函数。逆强化学习/Inverse Reinforcement Learning/IRL 通过从专家轨迹中推断奖励函数来缓解这一问题，GAIL 进一步将其推广到无需显式恢复奖励函数的对抗模仿学习框架。然而，这些方法都隐含地假设演示是从第一人称视角提供的——即智能体看到的观测与专家演示中的观测处于同一空间。

现实中，第一人称演示往往难以获取。人类学习技能时大量依赖第三人称观察——观看他人执行任务，然后自己完成相同任务。在机器人学习的语境下，这意味着智能体观看来自不同摄像头角度的演示视频，然后在自己的视角下执行任务。直接将行为克隆或 IRL 方法应用于第三人称设定会面临根本性困难：专家域和新手域的观测空间不匹配，判别器会轻易利用视角差异进行分类，而非学习到行为本身的特征。

本文的核心洞察来自计算机视觉中的域适应/Domain Adaptation 技术：利用域混淆迫使特征提取器产生与域无关的表示，使得下游分类器只能依赖行为相关的特征（而非视角相关的特征）来区分专家与非专家。具体而言，本文将问题形式化为一个第三人称 RL-GAN 问题，在 GAIL 的基础上引入域混淆机制。

2. Problem Setup

标准 MDP 设定。 离散时间有限视野折扣马尔可夫决策过程/Markov Decision Process/MDP 定义为元组 $M = ⟨ S, A, P, r, ρ_{0}, γ, T ⟩$ ，其中 $S$ 为状态集合， $A$ 为动作集合， $P : S \times A \times S \to R_{+}$ 为转移概率， $r : S \times A \to R$ 为奖励函数， $ρ_{0} : S \to R_{+}$ 为初始状态分布， $γ \in [0, 1]$ 为折扣因子， $T$ 为视野长度。策略 $π_{θ} : S \times A \to R_{+}$ 的目标是最大化期望折扣回报：

η (π_{θ}) = E_{π_{θ}} [t = 0 \sum T γ^{t} c (s_{t})]

第一人称模仿学习（GAIL 框架）。 在没有奖励函数的情况下，给定专家策略 $π_{E}$ 生成的状态轨迹，GAIL 训练判别器 $D_{R}$ 区分专家与模仿者的状态，同时训练模仿策略 $π_{θ}$ 使判别器无法区分：

π_{θ} max D_{R} min - E_{π_{θ}} [lo g D_{R} (s)] - E_{π_{E}} [lo g (1 - D_{R} (s))] (1)

其中 $D_{R} (s)$ 输出状态 $s$ 来自模仿者轨迹的概率。理想均衡下，判别器对所有状态输出 0.5，即模仿者的状态分布与专家无法区分。实践中用交叉熵损失表示：

π_{θ} max D_{R} min L_{R} = i \sum CE (D_{R} (s_{i}), c_{ℓ_{i}}) (2)

其中 $c_{ℓ_{i}}$ 为状态 $s_{i}$ 的类别标签（专家或非专家）。对固定的 $D_{R}$ ，以 $- lo g D_{R} (s, a)$ 为奖励，用策略梯度方法（TRPO）更新 $π_{θ}$ 。

第三人称模仿学习的形式化。 给定两个 MDP $M_{π_{E}}$ （专家域）和 $M_{π_{θ}}$ （新手域），以及专家策略 $π_{E}$ 在 $M_{π_{E}}$ 中生成的第三人称轨迹集合 $ρ = {(s_{1}, \dots, s_{n})}_{i = 0}^{n}$ ，第三人称模仿学习的目标是通过 $ρ$ 恢复一个在 $M_{π_{θ}}$ 中关于 $R_{π_{θ}}$ 最优行动的策略 $π_{θ} = f (ρ)$ 。关键区别在于：专家和新手处于不同的环境中，观测空间存在系统性差异（如视角、颜色等），因此不能直接匹配原始观测。

3. Algorithm

3.1 Method Overview

本文方法的核心目标是：在专家和新手的观测空间不同的情况下，学习一个域无关的特征表示，使得基于该表示的分类器能够跨域判断行为是否为专家行为，从而为策略学习提供有效的奖励信号。

整体架构包含三个可训练组件：

特征提取器 $D_{F}$ ：从原始观测 $o_{t}$ 中提取特征 $σ_{t} = D_{F} (o_{t})$
类别分类器 $D_{R}$ ：基于特征判断轨迹是否来自专家
域判别器 $D_{D}$ ：判断特征来自哪个域（专家环境 vs. 新手环境）

三者之间的博弈关系构成了方法的核心。

3.2 From First-Person to Third-Person: Introducing Domain Confusion

直接将 GAIL 的判别器应用于第三人称设定会失败，因为判别器会利用域差异（视角、颜色等）作为分类信号，而非学习行为特征。解决思路是将判别器 $D_{R}$ 拆分为特征提取器 $D_{F}$ 和分类器 $D_{R}$ （论文复用了符号），并要求特征提取器的输出不包含域信息。这一约束形式化为互信息约束：

π_{θ} max min L_{R} = i \sum CE (D_{R} (D_{F} (o_{i})), c_{ℓ_{i}}) s.t. MI (D_{F} (o_{i}); d_{l}) = 0

其中 $d_{l}$ 为域标签（专家域 vs. 新手域）。互信息为零意味着从特征中无法推断出样本来自哪个域。

为实现这一约束，引入域判别器 $D_{D}$ ，它接收特征 $σ_{i}$ 并预测域标签 $d_{ℓ_{i}}$ 。将互信息约束转化为域分类损失 $L_{D}$ ：

L_{D} = i \sum CE (D_{D} (σ_{i}), d_{ℓ_{i}})

目标变为：最小化类别分类损失 $L_{R}$ 的同时最大化域分类损失 $L_{D}$ ——即让特征在区分专家/非专家时有效，但在区分域时尽可能无用。

3.3 Multi-Time Step Input

仅凭单帧图像往往难以判断行为是否为专家行为，因为静态图像不包含动态信息。为此，论文将判别器的输入从单帧扩展为时间对：将时刻 $t$ 和 $t + n$ 的观测分别通过特征提取器得到 $σ_{t} = D_{F} (o_{t})$ 和 $σ_{t + n} = D_{F} (o_{t + n})$ ，拼接后输入类别分类器：

D_{R} (σ_{t}, σ_{t + n}) = \overset{c}{^}_{ℓ}

这使分类器能够利用时间差异中蕴含的动态信息来判断行为质量。

3.4 Final Objective and Gradient Reversal

将类别分类损失和域混淆损失合并，并使用梯度翻转层 $G$ （前向传播时为恒等函数，反向传播时翻转梯度符号）解决 $D_{F}$ 上两个目标的竞争关系，最终优化目标为：

π_{θ} max D_{R}, D_{D}, D_{F} min L_{R} + L_{D} = i \sum CE (D_{R} (σ_{i}, σ_{i + n}), c_{ℓ_{i}}) + λ \cdot CE (D_{D} (G (σ_{i})), d_{ℓ_{i}}) (5)

其中 $λ$ 为权衡域混淆目标与类别分类目标的超参数。由于梯度翻转层的存在， $D_{F}$ 在反向传播时会远离有助于域分类的特征方向，从而产生域无关的表示。该目标可通过标准的随机梯度下降高效求解。

梯度翻转层的直觉

梯度翻转层使得特征提取器在优化过程中同时受到两个相反方向的压力：类别分类器希望特征保留区分专家/非专家的信息，域判别器的梯度翻转则迫使特征丢弃区分域的信息。最终平衡点是：特征只保留与行为质量相关、但与域无关的信息。

3.5 Training Pipeline

为确保判别器有足够的训练信号，需要从专家域同时收集专家和非专家的第三人称演示。完整的训练过程交替执行以下步骤：

判别器更新：从记忆库 $Ω$ 中采样专家域的成功/失败轨迹 $ω_{E}$ ，与当前策略 $π_{θ}$ 的 rollout $ω_{N}$ 合并。对每个观测对 $(o_{t}, o_{t + 4})$ ，通过 $D_{F}$ 提取特征，计算 $L_{R} + λ \cdot L_{D}$ ，用 ADAM 优化 $D_{R}, D_{D}, D_{F}$ 。
策略更新：对当前策略的 rollout，用类别分类器输出的专家概率 $r = \overset{c}{^}_{ℓ} [0]$ （即该观测对被判断为专家 rollout 的概率）作为奖励，用 TRPO 更新 $π_{θ}$ 。

实现细节：特征提取器为 2 层卷积网络（5 个 3×3 滤波器，后接 max pooling），输入为 50×50 RGB 图像。域判别器和类别分类器均为两层全连接网络（128 隐藏单元），输出层为 softmax。判别器训练使用 ADAM（学习率 0.001），策略训练使用 RLLab 的 TRPO 实现。look-ahead 步数 $n = 4$ 。

4. Experiments

实验在 MuJoCo 物理模拟器中的三个环境上进行，每个环境有专家域和新手域两个版本，视觉外观存在差异：

Point：点质量移动到目标点，域间改变目标颜色和相机角度（约 40 度）
Reacher：二自由度机械臂到达目标点，域间改变相机角度、臂长和目标颜色（相机角度变化导致背景从灰色变为约 30% 黑色）
Inverted Pendulum：倒立摆平衡控制，域间仅改变摆杆颜色

主要结果。 在三个任务上，算法均能从第三人称演示中恢复合理的策略。训练初期由于域混淆造成不稳定，但经过若干迭代后策略收敛到合理的局部最优，奖励方差显著减小。域分类准确率随训练推进趋近 50%，表明特征提取器确实学到了域无关的表示。

消融实验。 分别移除域混淆损失和多时间步输入进行对比：

移除域混淆后，性能在所有三个环境中大幅下降，表明域混淆是方法成功的关键
移除多时间步输入后，性能略有下降，说明时间信息对性能有边际改善

超参数敏感性。 $λ$ 过低导致特征不够域无关、学习缓慢； $λ$ 过高则过于激进地丢弃信息，导致无法恢复准确的代价函数。look-ahead 步数无单一最优值，但 $n = 4$ 在所有任务上表现良好。

相机角度敏感性。 在 Point 环境中，奖励随角度差异近似线性下降；Reacher 环境对角度变化更为随机。这表明方法对较大的视角差异存在性能退化。

与 baseline 对比。 与三个 baseline 比较：(1) 使用真实奖励的标准 RL（性能上界参考）；(2) 标准第一人称 GAIL（第一人称演示下的上界）；(3) 将第一人称策略直接应用于第三人称环境（验证跨域迁移的必要性）。结果显示：第一人称 GAIL 表现最好（因为无域差异），第三人称模仿学习与之有竞争力，而直接跨域应用第一人称策略则完全失败——这证实了显式处理第三人称设定的必要性。

实验局限性分析：

三个实验环境都非常简单（低维控制、小图像），域差异也有限，难以评估方法在复杂场景下的泛化能力
缺少与其他域适应方法的对比
需要从专家域同时收集专家和非专家演示，这一要求本身就限制了方法的实用性
未报告与使用真实状态的 GAIL 在相同域下的定量差距，难以量化从像素学习和跨域带来的性能损失分别有多大
训练不稳定性在学习曲线中清晰可见（高方差），但论文未深入分析失败模式

Related Work. 本文工作处于模仿学习、域适应和对抗生成网络的交叉点：

模仿学习：行为克隆（ALVINN 等）直接学习观测到动作的映射；IRL 方法（Apprenticeship Learning、MaxEntIRL 等）恢复奖励函数；GAIL 将两者统一到对抗框架中。但这些方法均假设第一人称演示。
第三人称模仿：此前的工作依赖于预先提供的专家-新手环境对应关系或不变特征表示，而本文考虑从原始感官数据出发、不提供任何对应关系的无监督设定。
域适应：Deep Domain Confusion 提出了域混淆损失，Unsupervised Domain Adaptation by Backpropagation 引入了梯度翻转层。本文将这些技术从监督分类迁移到对抗模仿学习中。
深度强化学习：方法依赖从原始像素进行 RL，使用 TRPO 作为策略优化器。

Future Work. 作者提出的方向是联合训练策略特征和代价特征在像素级别进行复用，以提高效率。从论文的局限性来看，以下方向值得探索：更复杂的视觉环境和更大的域差异、不需要从专家域收集非专家数据的方法、以及从真实视频（而非模拟器渲染）进行第三人称模仿学习。

Paper List

Explorer

Third-Person Imitation Learning

1. Introduction

2. Problem Setup

3. Algorithm

3.1 Method Overview

3.2 From First-Person to Third-Person: Introducing Domain Confusion

3.3 Multi-Time Step Input

3.4 Final Objective and Gradient Reversal

3.5 Training Pipeline

4. Experiments

Table of Contents

Backlinks

Paper List

Explorer

Third-Person Imitation Learning

1. Introduction

2. Problem Setup

3. Algorithm

3.1 Method Overview

3.2 From First-Person to Third-Person: Introducing Domain Confusion

3.3 Multi-Time Step Input

3.4 Final Objective and Gradient Reversal

3.5 Training Pipeline

4. Experiments

5. Related Work & Future Work

Table of Contents

Backlinks