这个子队列只收 Dueling Bandit 和 contextual dueling bandit 这类偏好反馈 bandit。普通 bandit regret theory 暂时不放在这里,除非它直接服务于 pairwise preference query 或 preference-based policy learning。

Reading Queue