Preference Learning

Scope

这个 topic 用来收 Preference Learning 这一组以相对反馈为核心的工作：成对偏好、preference-based RL、reward/preference model、DPO/RLHF objective、judge aggregation，以及偏好信号如何被转成策略或排序模型。它和传统 RL 的区别在于，学习信号不是直接的数值 reward，而是 两个对象、动作、回答或轨迹之间谁更好。

Dueling Bandit 现在作为这个 topic 下的子目录保存。这样处理比保留一个泛化的 “Bandit Theory” 一级 topic 更干净，因为当前仓库里真正和 bandit 重叠的部分主要是 成对比较反馈、relative preference、以及从 pairwise query 中做探索/利用权衡。如果以后要系统整理 stochastic bandit、adversarial bandit 或 Bayesian bandit，而它们不依赖偏好比较，再单独开传统 bandit topic 会更合理。

Paper List

Explorer

Preference Learning

Scope

Overview of Preference Learning

Dueling Bandit

Preference-Based RL: A Survey of Preference-Based Reinforcement Learning Methods