Overview

arXiv: OpenClaw-RL, arXiv, Note

ICLR 2023: ReAct: Synergizing Reasoning and Acting in Language Models, arXiv

NeurIPS 2023: Reflexion: Language Agents with Verbal Reinforcement Learning, arXiv

ICML 2024: Language Agent Tree Search Unifies Reasoning, Acting, and Planning in Language Models, arXiv

NeurIPS 2024: SWE-agent: Agent-Computer Interfaces Enable Automated Software Engineering, arXiv

ICLR 2024 Spotlight: ToolLLM: Facilitating Large Language Models to Master 16000+ Real-world APIs, arXiv

ICML 2024: ArCHer: Training Language Model Agents via Hierarchical Multi-Turn RL, arXiv

NeurIPS 2024: DigiRL: Training In-The-Wild Device-Control Agents with Autonomous Reinforcement Learning, arXiv

ICLR 2025: WebRL: Training LLM Web Agents via Self-Evolving Online Curriculum Reinforcement Learning, arXiv

ICLR 2025: Agent Q: Advanced Reasoning and Learning for Autonomous AI Agents, arXiv

arXiv 2025: Search-R1: Training LLMs to Reason and Leverage Search Engines with Reinforcement Learning, arXiv

arXiv 2025: RAGEN: Understanding Self-Evolution in LLM Agents via Multi-Turn Reinforcement Learning, arXiv

ICLR 2026 Oral: AgentGym-RL: Training LLM Agents for Long-Horizon Decision Making through Multi-Turn Reinforcement Learning, arXiv

arXiv 2025: AgentRL: Scaling Agentic Reinforcement Learning with a Multi-Turn, Multi-Task Framework, arXiv

arXiv 2025: ComputerRL: Scaling End-to-End Online Reinforcement Learning for Computer Use Agents, arXiv

arXiv 2025: A Practitioner’s Guide to Multi-turn Agentic Reinforcement Learning, arXiv

Paper List