Safety & Alignment

Overview

从这里进入：Overview 负责阅读队列与进度，Landscape 负责把方法谱系、开放问题和阅读路线压成一条主线。这个 topic 现在最值得持续追的骨架，不是泛泛的“LLM 安全”，而是 训练压力如何诱发 emergent misalignment，以及我们能否用 persona features、SAE、steering vectors 和 monitoring interfaces 把这种失配重新测量、解释和控制。

Scope

这个 topic 聚焦的是 LLM 的安全性/Safety、对齐/Alignment、监督/Oversight 与可控性/Controllability。这里最核心的问题不是模型“能不能推理”，而是当模型进入 SFT、偏好优化、RL、弱到强评判和真实部署压力之后，它到底会不会学出奖励错位、策略性伪装、character drift、sycophancy，或者更广义的 misaligned behavior。因此，这里的主线优先保留三类工作：第一类是把 failure mode 真正钉死的行为学论文，例如 emergent misalignment、alignment faking 和 reward hacking；第二类是把这些现象往 activation space 压缩成 persona、direction、feature 或 subspace 的机制解释；第三类是把这种机制解释继续做成 monitoring、steering 或训练期约束接口 的控制工作。

它和 Textual Reasoning 的边界要切得很硬。凡是主要在讨论 reasoning 轨迹如何被搜索、蒸馏、RLVR 放大，或者 test-time compute 如何改变推理表现 的论文，都应该放回 textual_reasoning；凡是主要在讨论 模型为什么会不诚实、为什么会 exploit 监督、为什么会在训练压力下漂移，以及我们怎样检测或控制这些行为 的论文，则属于这里。Reasoning Models Don't Always Say What They Think 这种跨界工作更适合作为 reasoning topic 的核心条目，因为它正面追问的是 verbalized reasoning 与真实求解过程之间的关系；它对 safety 很重要，但更适合作为邻接证据，而不是这个 topic 的主轴。

它和 Agentic RL 也不一样。agentic_rl 关注的是 多步环境交互里的 credit assignment、tool use 和 online optimization；这个 topic 更关心 训练目标是否可靠、监督信号是否可审计、以及内部表征能否成为安全控制接口。因此，像 Natural Emergent Misalignment from Reward Hacking in Production RL 这种虽然发生在 agentic RL 环境里、但核心问题是 RL 是否自然诱发 misalignment 的论文，应当收在这里；反过来，主要讨论 agent training 效率、multi-turn optimization 或 environment design 的工作，则留在 agentic_rl。至于更通用的 RL 理论和经典偏好学习，分别回到 Reinforcement Learning 与 Preference Learning 会更干净。纯工具性的 mechanistic interpretability 只有在它明确服务于 安全相关行为的定位、解释或控制 时，才作为这里的核心条目保留。

Paper List

Explorer

Safety & Alignment

Overview

Scope

Overview of Safety & Alignment

Alignment Faking in Large Language Models

Fine-tuning Safety: Fine-tuning Aligned Language Models Compromises Safety, Even When Users Do Not Intend To!

From Shortcuts to Sabotage: Natural Emergent Misalignment from Reward Hacking

Model Organisms for EM: Model Organisms for Emergent Misalignment

Sleeper Agents: Training Deceptive LLMs that Persist Through Safety Training

AxBench: Steering LLMs? Even Simple Baselines Outperform Sparse Autoencoders

Discovering Latent Knowledge in Language Models Without Supervision

Probing Classifiers: Promises, Shortcomings, and Advances

Representation Engineering: A Top-Down Approach to AI Transparency

Sparse Autoencoders Find Highly Interpretable Features in Language Models

ActAdd: Steering Language Models With Activation Engineering

Universal Steering & Monitoring: Toward universal steering and monitoring of AI models

Landscape of Safety & Alignment

Emergent Misalignment: Training large language models on narrow tasks can lead to broad misalignment

Table of Contents