Textual Reasoning

Overview

Overview 记录这个 topic 已经读过与值得继续排队的 reasoning 论文。这里的主线不是泛泛的“模型会不会想”，而是 文本中的推理轨迹如何被搜索、蒸馏、RL 放大、budget forcing 控制，以及这些训练方式到底是在创造新能力，还是在重排已有能力。

Scope

这个 topic 现在覆盖两类紧密相连的工作。第一类是 reasoning scaffold 与 search-style inference，例如 Tree of Thoughts 这种把思维树显式化的工作；第二类是 reasoning post-training 与 reasoning-time control，例如 DeepSeek-R1、DAPO、GRPO 动力学、LIMO 和 s1 这一支。它们共同讨论的是：推理表现到底如何被训练、采样和推理时预算控制出来。

它和 Safety & Alignment 的分界也需要很清楚。凡是主要在讨论 deceptive alignment、reward hacking、弱到强监督、sycophancy、character stabilization 或安全相关内部表征 的论文，都应该放到 safety_alignment；凡是主要在讨论 reasoning trace、CoT、test-time search、RLVR 是否真的扩展了 reasoning capacity 的论文，则留在这里。Reasoning Models Don't Always Say What They Think 这种跨界论文之所以被放在这里，是因为它正面追问的是 verbalized reasoning 与真实求解过程之间的关系。

Paper List

Explorer

Textual Reasoning

Overview

Scope

Overview of Textual Reasoning

Tree of Thoughts: Deliberate Problem Solving with Large Language Models

Table of Contents