Overview

ICLR 2016, GAE: High-Dimensional Continuous Control Using Generalized Advantage Estimation, arXiv, Note

NeurIPS 2022, DAE: Direct Advantage Estimation, arXiv, Note

NIPS 1999: Policy Gradient Methods for Reinforcement Learning with Function Approximation, NIPS

ICML 2002, CPI / Kakade & Langford: Approximately Optimal Approximate Reinforcement Learning, PDF

NIPS 2001, NPG: A Natural Policy Gradient, NIPS

ICML 2016, A3C: Asynchronous Methods for Deep Reinforcement Learning, arXiv

ICML 2015, TRPO: Trust Region Policy Optimization, arXiv

arXiv 2017, PPO: Proximal Policy Optimization Algorithms, arXiv

Paper List