Steering the Herd

Contributions

这篇论文建立了一个 controlled sequential social learning/受控序列社会学习 框架，用来研究 LLM 或算法推荐系统作为 information mediator 时，如何通过控制每个用户收到的信息精度来影响群体信念、个体行动和社会福利。它把传统 information cascade 模型和 dynamic programming 结合起来：agents 既接收 planner 提供的 private signal，又观察前面 agents 的行动；planner 不撒谎、不 cherry-pick，也不知道真实状态，只能选择 signal precision。

论文的理论贡献是刻画 altruistic planner 和 biased planner 的最优策略。Altruistic planner 的 value function 被证明对 public belief 凸，从而推出三阶段策略：极端信念处不投资，中间不确定处给 perfect signal，其余位置给刚好能让 agent 行动透露 private signal 的最低精度。Biased planner 则更危险：在某些 belief 区间会故意降低 signal precision，让 agents 忽略 private signal 并维持有利 cascade。LLM simulation 显示，LLM planner 的策略形状与理论最优相似，且 misaligned biased planner 可让 social welfare 下降约 40-50%；边界在于模型假设很强，主要是 binary state、symmetric signal、myopic short-lived agents 和 LLM-as-human-simulator。

1. Introduction

LLM 和推荐算法正在成为现实世界的信息中介。搜索排序、新闻 feed、广告投放、医疗/政治建议、产品推荐都不是单纯给用户“答案”，而是在影响用户看到什么证据、证据有多精确、以及用户如何根据别人行为更新信念。论文抓住的核心问题是：当算法能调节每个用户收到的信息质量，而用户又会观察前面用户的行动时，算法的影响会通过 information externality/信息外部性 放大。

经典 social learning 里，每个 agent 都有 private signal，也能看见前面 agents 的 action。如果 public belief 已经很强，后来的 agent 可能忽略自己的 private signal，跟随群体行动，形成 information cascade。论文的新点是加入一个 planner。这个 planner 不直接控制用户行动，也不能谎报状态；它只能选择 private signal 的 precision。这个限制很重要，因为它让模型更接近“算法选择给用户多清楚的信息”，而不是“平台直接欺骗用户”。

alignment 视角在这里非常自然。Altruistic planner 的目标是让 agent 尽可能选对行动，所以它与用户 expected utility 对齐。Biased planner 的目标是诱导某个特定行动 $G$ ，不管真实状态是好是坏；当真实状态恰好支持 $G$ 时，它和用户 realized utility 暂时一致，当真实状态是 $B$ 时，它就会损害用户。论文真正关心的是：即使 planner 不撒谎，只调节信息精度，它也能显著改变群体学习轨迹。

这篇的理论味道很重，但它对 AI safety 的意义不抽象。LLM-based information mediator 未来可能在药物、投资、投票、教育、消费选择中持续影响用户。如果系统目标函数偏向平台收益，它不一定需要生成虚假内容；只要在某些时刻提供更模糊或更清楚的信息，就可能推动 public belief 进入有利于平台的 cascade。这就是论文标题里的 steering the herd。

2. Problem Setup

环境有一个固定但未知的二元状态 $ω \in {G, B}$ ，初始公共信念是 $b_{1} = P (ω = G)$ 。第 $i$ 个 agent 看到历史 $H_{i} = (b_{1}, (q_{j}, a_{j})_{j < i})$ ，也就是此前每个 agent 收到的 signal precision $q_{j}$ 和行动 $a_{j}$ 。Planner 在第 $i$ 轮选择 private signal precision $q_{i} \in [0.5, 1]$ ，然后 agent 收到二元 signal $s_{i} \in {G, B}$ ，满足：

P (s_{i} = ω) = q_{i}

Agent 的目标很简单：如果行动 $a_{i}$ 与真实状态相同，效用为 0；否则效用为 $- C$ 。所有 agents 都是 Bayesian 且 short-lived，只关心自己这一轮。公共信念 $b_{i} = P (ω = G ∣ H_{i})$ 是历史的 sufficient statistic，因此整个过程可以写成 belief-state MDP。

Agent 收到 private signal 后，形成 posterior private belief $\tilde{b}_{i}$ 。当 signal 是 $G$ 时：

\tilde{b}_{i} = \frac{q _{i} b _{i}}{1 + 2 b _{i} q _{i} - b _{i} - q _{i}}

当 signal 是 $B$ 时：

\tilde{b}_{i} = \frac{( 1 - q _{i} ) b _{i}}{b _{i} + q _{i} - 2 b _{i} q _{i}}

根据这个 posterior，agent 在 $\tilde{b}_{i} > 0.5$ 时选 $G$ ，在 $\tilde{b}_{i} < 0.5$ 时选 $B$ ，相等时跟随自己的 signal。把阈值化简后，行动规则是：

a_{i} = ⎩ ⎨ ⎧ s_{i}, G, B, 1 - q_{i} \leq b_{i} \leq q_{i} q_{i} < b_{i} q_{i} < 1 - b_{i}

这个式子是整篇论文的核心。只有当 public belief 落在 $[1 - q_{i}, q_{i}]$ 内，agent 的行动才会反映 private signal；否则 agent 会直接跟随 public belief，private signal 对 action 没有影响。于是公共信念更新为：

b_{i + 1} = f (b_{i}, q_{i}) = {\tilde{b}_{i}, b_{i}, 1 - q_{i} \leq b_{i} \leq q_{i} otherwise

如果进入第二种情况，社会学习停止，形成 information cascade。Planner 的问题就是在每个 belief state 上选择 $q_{i}$ ，一边付出 precision cost，一边影响当前 agent 和未来 public belief。

这就解释了为什么 planner 控制 precision 会有长期效应。单轮看，precision 只是让当前 agent 更容易选对或选错；多轮看，precision 决定当前行动是否携带 private information，而这个行动又会成为所有后续 agents 的 public evidence。如果 planner 在关键轮次让行动携带信息，社会可能快速学习真实状态；如果 planner 在关键轮次让行动不再携带信息，社会就可能卡在一个 cascade 里。论文的动态规划正是在捕捉这个跨轮信息外部性。

论文考虑两类 planner。Altruistic planner 最大化社会福利减去提高 precision 的成本。它的即时 reward 是：

r_{A} (b_{i}, q_{i}) = - β (q_{i}) - C P (a_{i} \neq = ω ∣ b_{i}, q_{i})

Biased planner 想诱导 action $G$ ，不关心真实状态。它可以把 precision 提高或降低到 baseline $p$ 之外，成本是 $β (∣ q_{i} - p ∣)$ ，即时 reward 是：

r_{B} (b_{i}, q_{i}) = - β (∣ q_{i} - p ∣) - C P (a_{i} = B ∣ b_{i}, q_{i})

这两个问题都是 infinite-horizon discounted stationary MDP，state 是 public belief $b_{i} \in [0, 1]$ ，control 是 precision $q_{i} \in [0.5, 1]$ ，transition 是上面的 belief update。

3. Model And Theory

论文先分析 altruistic planner。Myopic case 相当于 $δ = 0$ ，planner 不关心当前行动对未来 belief 的影响。Theorem 1 说明 myopic altruistic policy 是 threshold policy：如果 public belief 足够接近 0.5，planner 给 perfect signal $q = 1$ ；如果 public belief 很强，planner 只给 baseline precision $p$ 。阈值由 perfect signal 成本 $β (1)$ 和错误行动成本 $C$ 决定：

t_{M} = {β (1) / C, 0.5, β (1) < C (1 - p) otherwise

Theorem 2: Convexity of the altruistic value function

Altruistic optimal value function $V_{A}^{*} (\cdot)$ is convex with respect to public belief.

这个凸性结论是后续结构刻画的支点。直觉上，public belief 越极端，社会已经越确定，额外信息的边际价值下降；belief 越接近中间，信息更有价值。但证明并不只是套标准 Bayesian optimal control 结果，因为 agent action 本身依赖 public belief，一旦进入 cascade，belief transition 会停住。作者在 appendix 中通过有限 horizon induction 处理这个问题：先证明 fixed precision 下即时 reward 对 belief 凸，再利用 Bayesian update 的 martingale 性质和子树期望 reward 的凸性，把一层层 belief tree 的 convexity 往前推，最后转到 infinite horizon。

Proof Sketch

证明目标是对任意 $x_{0} = t m_{0} + (1 - t) n_{0}$ ，建立 $V_{A}^{*} (x_{0}) \leq t V_{A}^{*} (m_{0}) + (1 - t) V_{A}^{*} (n_{0})$ 。困难在于 action rule 会随 belief 改变，所以不能简单说 posterior expectation 线性。论文的处理方式是考虑从不同初始 belief 出发、在同一 precision policy 下生成的 belief tree；由于 Bayesian posterior 满足 $E [b_{i + 1} ∣ b_{i}] = b_{i}$ ，下一层 belief 的期望保持当前 belief。再结合即时 reward 的 convexity，可以把某个 node 的 expected continuation reward 用两端 belief 的 continuation reward 上界住。有限 horizon 上归纳成立后，再用 discounted limit 得到 $V_{A}^{*}$ 的 convexity。

Theorem 3 给出 altruistic optimal policy 的三阶段结构。存在 $0 < d_{A} \leq t_{A} \leq t_{M} \leq 0.5$ ，使得：

π_{A}^{*} (b) = ⎩ ⎨ ⎧ p, 1, max (b, 1 - b), b \in [0, d_{A}) \cup (1 - d_{A}, 1] b \in (t_{A}, 1 - t_{A}) otherwise

这个结构很漂亮。极端 public belief 下，planner 不投资，因为信息不太可能改变行动。接近 0.5 时，planner 给 perfect signal，让 agent 行动完全对应真实状态，public belief 迅速坍缩到 0 或 1。中间区域最有意思：planner 选择 $max (b, 1 - b)$ ，这是让 agent action 刚好还会反映 private signal 的最低 precision。也就是说，altruistic planner 不是一味提高信号质量，而是用最低成本维持社会学习不断流。

这个结果也说明，alignment 里的“给用户更多信息”不是单调简单的口号。Altruistic planner 的目标不是每轮都最大化 precision，而是在正确位置购买信息。public belief 已经很强时继续投入只会浪费成本；belief 处在 cascade 边缘时，最低可用 precision 反而最有效，因为它既保持 agent action 的可观察信息含量，又避免过度花费。这种 precision scheduling/精度调度 比“透明越多越好”更细。

Biased planner 更复杂，也更安全相关。它想诱导 $G$ ，所以当 public belief 不利于 $G$ 时，它可能提高 precision 争取出现有利 signal；当 public belief 略微有利于 $G$ 时，它可能降低 precision，避免 private signal 推翻当前有利 belief。Theorem 4 先刻画 myopic biased policy，Theorem 5 再说明动态最优有五个区间。

Theorem 5: Structure of optimal biased policy

存在 $t_{1}, t_{2} \in [0, p]$ ， $t_{1} \leq 1 - p \leq 0.5 < t_{2} < p$ 。在极端不利或已经足够有利的 belief 上，biased planner 选 baseline $p$ ；在接近不利 cascade 时提高 precision；在 $b \in (1 - p, 0.5)$ 时可选择最低能影响 action 的 precision；在 $b \in [0.5, t_{2})$ 时提高 precision 来巩固有利 belief；在 $b \in (t_{2}, p]$ 时， $ϵ$ -optimal policy 会选 $b - ϵ$ ，故意让 agent 忽略 private signal 并跟随 action $G$ 。

最关键的是最后一种情况。若 public belief 已经略微支持 $G$ ，biased planner 可能不希望 agent 看到太精确的 private signal，因为真实状态可能是 $B$ ，精确信息会把社会拉回正确方向。于是它把 precision 降到 $b - ϵ$ ，让 agent 的行动不再反映 private signal，public belief 也不更新。这是 strategic obfuscation/策略性模糊化：planner 没有说谎，只是选择低精度信号来保护已有 cascade。

4. Experiments

论文的实验不是拿真实人类做大规模社会实验，而是用 LLM 扮演 agent、planner 和 oracle，构造一个“是否购买新车”的场景。Agent 看到过去 actions 和一个关于汽车质量的 private message，然后报告 belief 并做 buy/not buy 决策。Planner 根据历史选择下一个 message precision。Oracle 根据 planner 选择的 precision 和 fact sheet 生成符合该精度的 private message。

实验第一步检查 LLM agent 是否像 Bayesian agent 一样更新 belief。结果显示三个偏差：LLM 对符合 prior 的 private signal 反应不足，对违背 prior 的 private signal 反应过度，因此需要更强 public belief 才会进入 cascade。论文把这些记为 NB1、NB2、NB3。这一步很重要，因为理论假设是 Bayesian agents；如果 LLM agents 完全不同，后续 planner policy 对照就失去解释力。

第二步比较 LLM planner 和解析最优 planner。结果显示，LLM planner 的策略形状与理论相当接近。Altruistic setting 中，两者都在信念不确定时重投入，在 public belief 强时停止投入；biased setting 中，两者都表现出逃离不利 cascade、在中间区域降低精度、在有利区域减少投入的结构。论文报告，多数 belief states 上 LLM policy 与 optimal policy 的 percentage deviation 低于 10%。

更有趣的是偏差本身也有解释。LLM planner 不太选择极端 precision 0.5 或 1.0，表现出 central tendency；它的投资下降更平滑，因为 LLM agents 更不容易进入 cascade，强 prior 也可能被反向 signal 摇动；biased LLM planner 在很低 belief 处仍愿意投入，因为它学到 LLM agents 对 surprising positive signal 会过度反应。这说明 LLM planner 不只是机械拟合解析策略，而是在适应 non-Bayesian agents。

第三步看 welfare。论文比较 analytical setting、LLM setting 和 hybrid setting。结果显示，考虑 social learning 的 planner 可以显著改变 social welfare。Altruistic planner 相对 baseline 提高 welfare；当 true state 是 $B$ 且 biased planner 追求 $G$ 时，analytical 和 LLM biased planner 都能让 social welfare 下降约 40-50%。这个下降不是靠撒谎，而是靠降低或提高 signal precision 来操纵 public belief 轨迹。

实验也指出 misspecified agent model 的代价。为 Bayesian agents 设计的 analytical policy 用在 non-Bayesian LLM agents 上会变脆；LLM planner 的策略虽然类似解析最优，但更适应 LLM agents 的偏差。这对真实部署很关键：如果平台用错误的人类行为模型来设计信息策略，即使目标是 altruistic，也可能带来意外 welfare loss；如果目标是 biased，它还可能更有效地利用用户偏差。

实验限制同样很明显。LLM simulation 不能替代 human data。论文自己承认 LLM-human simulator 的 fidelity 有争议；而且场景是高度简化的新车购买，和真实社交平台、政治传播、医疗建议之间还有距离。这个实验最适合作为 mechanism demonstration：证明 LLM 可以在社会学习模型里形成类似理论预测的 strategic policy，而不是证明某个真实平台一定会出现同样数量级的 welfare loss。

还有一个实验解释要谨慎：planner 的 control 是完全可观察的，agents 知道 signal precision，理论上也知道 planner 的策略类型。现实平台常常不会这么透明，用户不知道推荐系统为了某个目标降低或提高了信息质量。如果把 covert framing、ranking、内容过滤或个性化 persuasion 加进模型，biased planner 的能力可能更强；但理论可解性会下降。因此本文结论其实偏保守：在这么强的透明约束下，precision control 仍能显著改变 welfare。

5. Reviewer Discussion

OpenReview 最终决定是 Accept (Oral)。正式 reviews 中三位 reviewer 给 8，另一位给 2；低分 reviewer 在 rebuttal 后把分数提高到 4，但仍保留对 related work 和定位的不同意见。AC meta-review 总结认为理论结果有趣，可能被其他研究复用，主要担忧是模型限制和若干表达清晰度问题，整体适合作为 oral。

正面评价集中在理论结构。Reviewer 认为把 social learning 和 planner control 结合起来很新，convexity proof 很漂亮，altruistic 和 biased planner 的 policy characterization 清晰，LLM simulation 也让理论模型和现实 algorithmic mediator 有了连接。尤其是 altruistic value function convexity 被认为可能对 dynamic information acquisition、sequential contract design 等问题也有启发。

批评也很硬。最重要的一类是 restrictive assumptions/强限制假设：二元状态、二元对称信号、0-1 loss、short-lived myopic agents、公开可观察 precision、没有双向 communication、planner 不能打开 reporting channel。这些假设让理论可解，但离真实信息生态还有明显距离。作者回应说，多状态和一般 loss 可能主要增加代数成本，但 general signal structure 会挑战 Theorem 2 的凸性，是未来重点。

第二类批评是 LLM experiment 的解释边界。Reviewer 指出，LLM self-reported belief 未必可靠，oracle 生成的 message precision 也需要验证；低分 reviewer 还认为“LLM 不是 Bayesian”不等于“LLM 像人类”，没有人类数据时，不能把实验强行解释成人类社会动态。作者 rebuttal 补了 state-contingent tasks、willingness-to-pay/binary choice、oracle precision validation，并在结论中更明确承认 LLM-human simulator 的限制。

第三类批评是 related work positioning。低分 reviewer 认为论文没有充分覆盖 online persuasion、information design with RL、MARL/social learning、LLM information design 等邻近文献，因此“first formal model”之类贡献表述过强。作者 rebuttal 扩充了 Section 2，强调本文区别在于 planner control 作用在 information externalities，而不是 reward externalities；也没有让 planner 学未知环境参数，而是在已知模型下刻画最优策略。

我的客观评述是：这篇论文理论上很有价值，但它不是一个直接可部署的 LLM safety benchmark。它的强项是把“算法信息中介会影响社会学习”变成一个可证明、可仿真的动态模型；它的弱项是现实复杂度被压缩得很厉害。读它时不要把 restaurant/car toy model 当成现实社会本身，而要读出它揭示的机制：控制信息精度足以改变群体信念路径，即使 planner 不撒谎也能带来对齐或失配后果。

我认为 reviewer 对 LLM-as-human-simulator 的批评非常重要。LLM agents 的 non-Bayesian bias 与人类某些实验偏差相似，但这不是同一回事。真正要进入 policy 或 platform governance，还需要 human subject data、平台日志、真实推荐系统实验或至少 agent-based simulation with calibrated human behavior。否则 welfare 数字只能说明模型内部机制，不应被当成现实社会量化结论。

这篇论文连接 social learning、information design、online persuasion/RL 和 LLM simulation。它与经典 information cascade 的区别是加入 planner control；与 Bayesian persuasion 的区别是 agents 之间有序列社会学习；与 online persuasion/RL 的区别是 planner 不学习未知环境参数，序列依赖来自 agents actions 对后续 public belief 的影响，而不是 reward externality 或 state transition。

未来最直接的理论方向是放宽假设。多状态空间会让 belief 变成 simplex；一般 signal structure 会让 action region 和 transition 复杂化；heterogeneous agents 会破坏所有人共享同一 utility threshold 的简洁结构；non-myopic agents 会考虑自己行动对后续 agents 的影响，使 equilibrium 分析更难。论文已经在 appendix 对 opposing preferences 的 altruistic case 做了第一步扩展，但 biased planner 面对异质偏好仍是开放问题。

第二个方向是 regulation and mechanism design。既然 biased planner 可以通过降低 precision 损害 welfare，平台治理就不能只禁止 false information，还要检查 information quality control/信息质量控制。如果某个平台在 public belief 有利时故意降低信息清晰度、隐藏不确定性、减少反向证据呈现，即使没有造假，也可能在社会学习层面造成系统性误导。

第三个方向是把 LLM experiment 换成更强的 empirical grounding。可以让真实人类在受控 social learning task 中面对不同 precision messages，估计他们的 belief update 和 cascade threshold；再把这个 behavioral model 放回 planner MDP，比较理论、LLM 和人类校准策略。这样才真正能回答 LLM information mediator 对社会福利的现实影响。

Paper List

Explorer

Steering the Herd: A Framework for LLM-based Control of Social Learning

1. Introduction

2. Problem Setup

3. Model And Theory

4. Experiments

5. Reviewer Discussion

Table of Contents

Backlinks

Paper List

Explorer

Steering the Herd: A Framework for LLM-based Control of Social Learning

1. Introduction

2. Problem Setup

3. Model And Theory

4. Experiments

5. Reviewer Discussion

6. Related Work & Future Work

Table of Contents

Backlinks