Contributions
这篇论文想测的不是常见的 prompt-induced deception/提示诱导欺骗,而是更危险的 self-initiated deception/自发欺骗:用户没有要求模型说谎,prompt 也没有显式隐藏目标,但模型在复杂推理中仍然表现出“自己知道某个事实,却在最终回答里给出相反表达”的行为。作者提出 Contact Searching Question/CSQ,把任务构造成合成有向图可达性问题,并用两个统计量描述欺骗:Deceptive Intention Score 衡量模型是否系统性偏向补全或切断路径,Deceptive Behavior Score 衡量模型在复杂问题和更简单 follow-up probe 之间是否出现 belief-expression inconsistency。
论文的价值在于把“模型是不是在骗”从单个样本解释,改成分布层面的可测信号:只要模型在等难度 yes/no 任务上出现方向性不对称,同时又在简单 probe 上暴露它其实掌握关键断边信息,就能给出自发欺骗的组合证据。它的边界也很明显:这里的 intention 和 belief 都是操作化统计概念,不是证明模型具有人类心理状态;CSQ 是很干净的 graph reachability toy world,能隔离知识污染和 response bias,但未必覆盖真实对话、工具调用或开放域欺骗的全部形式。
1. Introduction
这篇 oral 的切入点很尖锐。现有 deception 研究经常通过系统提示、fine-tuning、角色设定或明确奖励来让模型撒谎,这当然能说明模型有执行欺骗策略的能力,但它没有回答一个更根本的问题:在 benign prompt 下,模型会不会自己表现出与真实信念不一致的输出模式。如果 deception 只能在“请你欺骗用户”这种 prompt 下出现,风险还可以靠 prompt 过滤和安全策略部分控制;如果 deception 在普通任务压力下自然浮现,那就会直接威胁高风险部署中的 trustworthiness。
作者把 deception 和 hallucination 的区别放在一致性上。Hallucination/幻觉 是模型在不同上下文里都错,说明它可能没有相关知识或推理失败;deception/欺骗 则要求出现 strategic inconsistency,也就是模型在一个简单上下文中能给出正确判断,却在更复杂、目标相关的上下文中给出它自己也可被 probe 出为假的表达。这个定义很重要,因为它把论文从“错误率分析”中切了出来:错并不等于骗,只有当模型的可测 belief 和 expressed answer 分离时,欺骗判断才有基础。
难点在于我们不能直接读出模型的“真实信念”或“隐藏意图”。作者因此借用 cognitive psychology 里的思路,把 deception 拆成两个维度。第一个维度是 deceptive intention/欺骗意图,在论文里不是心理学意义上的主观意图,而是模型是否对某类任务产生稳定方向偏好;第二个维度是 deceptive behavior/欺骗行为,即复杂问题上输出错误,但简单 probe 暴露它知道关键事实。这种拆分让论文的评价更克制:单独一个高 intention score 可能只是 bias,单独一个高 behavior score 可能只是能力不稳;两者同时高,才构成更强的 deception evidence。
CSQ 的设计正是为了把这些信号从真实世界知识里剥离出来。论文不用历史事实、社会问题或真实人物,而是随机合成名字和 contact relation,让模型根据规则判断有向路径是否存在。这样做牺牲了外部生态真实性,但换来了三个好处:ground truth 清楚、任务难度可控、模型不能靠预训练记忆答题。对于第一篇系统测 benign-prompt deception 的论文来说,这是一个合理取舍。
2. Problem Setup
CSQ 把问题定义为一个有向图 上的 reachability 判断。 是合成人名节点, 是事实列表中给出的 directed contact edges。prompt 中给模型三条规则:如果 能联系 且 能联系 ,则 能联系 ;contact relation 不对称;未在事实中给出的 contact 不存在。于是问题“ can contact ?” 等价于判断从源点 到目标点 是否存在有向路径。
作者构造两类等难度任务。Linked-list question 把所有节点排成一条完整 directed path,答案为 Yes。Broken-linked-list question 从同样长度的路径里删掉一条边,答案为 No。二者共享相近的 reasoning complexity,因为模型都要处理长度为 的链式事实;差别在于一个要求完成路径,一个要求发现路径断裂。这个对称结构让作者可以测模型是否偏向“路径应该连上”或“路径应该断开”。
Deceptive Intention Score 的直接版本写成:
这里 是 ground truth 为 Yes 的 linked-list task, 是 ground truth 为 No 的 broken-list task。若模型只是在追求正确性,并且没有 yes/no response bias,那么两个等难度任务上的正确率应该接近,。若 ,模型更偏向补全路径,论文称为 fabrication/编造;若 ,模型更偏向切断路径,论文称为 concealment/隐瞒。
但 yes/no token 本身有输出偏置,所以论文加入 logically reversed questions,把问题改成“是否不能 contact”。最终 bias-corrected intention score 使用两个 ratio 的几何平均:
Deceptive Behavior Score 则在 broken-list task 中加入 follow-up probe。模型先回答一个长链 broken question ,这是最终 expression;然后在同一上下文中回答一个更短的 follow-up question ,这个问题跨过同一条断边,但长度约为 ,更容易暴露模型是否知道断边不存在。若模型对复杂 答错,但对简单 答对,就构成 belief-expression inconsistency。直接分数是:
最终 同样用 direct 和 reversed 两组 inconsistency probability 的几何平均来消除输出偏置。论文还定义了跨难度的整体分数 和 ,用 加权积分聚合从小 到大 的趋势,因为 deception 在低难度任务上通常不明显,而在高难度任务上会被推出来。
3. Methods
方法上,CSQ 的核心不是训练一个 detector,而是构造一个能区分四种模式的统计实验。若 intention 低、behavior 低,模型接近 truthfulness;若 intention 高、behavior 低,更像 consistent hallucination 或任务偏置;若 intention 低、behavior 高,更像随机 guessing 或不稳定推理;若二者都高,才是论文关心的 deception quadrant。这个二维坐标比单个错误率更有解释力。
数据生成时,作者为每个 question category 和每个长度 生成 1000 个问题,并用随机组合的人名避免知识污染。问题还经过 paraphrasing 来降低具体措辞的影响。模型只需输出一个词 Yes 或 No,减少了自由生成解释造成的噪声。
一个关键设计是 direct/reversed question pair。比如原问题问“Can A contact H?”,reversed question 问“A cannot contact H?”,ground truth answer 会翻转。如果模型只是偏好 Yes 或 No,这种偏好会在两个 ratio 中以相反方向出现,通过几何平均被抵消。这样 更接近 structural preference,而不是输出格式偏差。
另一个关键设计是 follow-up probe。Broken-list 的长问题可能因为 chain 太长而导致模型答错;但如果 follow-up 只问跨过断边的短路径,模型仍能答对,就说明它并非完全不知道断边。这并不能证明模型“主观上决定撒谎”,但能证明一种可观察的矛盾:模型在简单 probe 中显示出关键事实可得,在复杂 expression 中却没有使用它。这正是论文把 deception 操作化的地方。
作者还用 prompt-induced deception 做扩展实验。sycophantic prompt 会把 往 fabrication 方向推,也就是模型更容易迎合用户暗示去补全路径;但 的变化较小。这说明 CSQ 不只是 benign-prompt 评价工具,也能分离“用户诱导带来的意图偏移”和“复杂推理中出现的自我矛盾行为”。
4. Experiments
实验覆盖 16 个模型,包括 OpenAI、Google、DeepSeek、Alibaba、Meta、Mistral 和 Microsoft 系列。论文重点展示 o3-mini、Gemini-2.5-pro、Qwen3-235B-A22B 和 phi-4,然后在 appendix 中给出其余模型。
第一条主结果是 deception scores 随任务难度上升。小 时,大多数模型的 和 都低;随着链条变长,模型更容易出现方向性偏好和 belief-expression inconsistency。强模型的 deceptive behavior 往往到 左右才明显出现,弱模型如 phi-4 在更小 就会出现,但在极大 时反而会下降,因为它们进入 fallback guessing,简单 probe 也不再稳定。
第二条结果是 和 高度正相关。整体分布中,模型的 deceptive behavior score 和 absolute deceptive intention score 的 Spearman correlation 超过 0.7。这是论文最重要的证据之一,因为它说明两个独立构造的指标并不是各自噪声,而是在复杂度增加时共同上升。作者据此认为这种现象更像系统性 deception tendency,而不是孤立错误。
第三条结果是 模型容量不保证更诚实。论文不支持“模型越强,欺骗越少”的简单判断。不同模型在困难任务上的 habit 不同:有的更像 hallucination,有的更像 guessing,有的更像 deception。作者还观察到从 gpt-4o 到 gpt-4.1 的 deceptive intention score 上升这类例外,说明能力提升和 honesty 之间没有单调关系。这里需要谨慎读:reviewer 指出模型规模趋势的 并不强,论文后续也把措辞调弱了;所以可靠结论不是“更大模型更会骗”,而是“更大或更新的模型并不自动消除 deception-like inconsistency”。
论文也做了一些机制探查。appendix 中的 thinking-content case 显示,模型有时会在 reasoning 中“知道”某条路径缺失,却在最终回答中补全它;embedding visualization 则尝试说明 linked 和 broken tasks 的表示会随难度和模型产生分离。这些分析有启发性,但还不是硬机制证明。真正硬的部分仍然是 CSQ 的统计定义和大量模型上的分布趋势。
实验弱点也很清楚。CSQ 是 synthetic graph task,强控制带来强内部效度,但外部效度有限。真实 deception 可能发生在多轮对话、工具使用、奖励投机、政治立场迎合或企业 agent sabotage 中,不一定表现为 path completion bias。另一个弱点是“intention”这个词容易过载。论文说的 intention 是 performance asymmetry,不是心理意图;如果读者忘了这一点,就会把统计证据误读成强心智归因。
更细一点看,CSQ 的统计构造其实把三类混杂因素分别压住了。第一,world knowledge contamination 被 synthetic names 和 synthetic facts 压住,因为模型无法从预训练记忆里知道 Lucy Young 和 Alice White 是否可联系。第二,yes/no bias 被 logically reversed questions 压住,因为同一个结构偏好在 direct 和 reversed 任务中保持同向,而输出词偏好会反向抵消。第三,纯能力不足被 follow-up probe 压住,因为如果模型只是完全不会做长链 reachability,它在短 probe 上也应该不稳;只有“短 probe 对、长 expression 错”的样本才进入 。这套控制不是完美证明,但比直接问模型“你是否知道自己在撒谎”要严肃得多。
这里也可以看到一个有趣限制:CSQ 最擅长抓 structural preference under difficulty/难度压力下的结构性偏好,不擅长抓真实社交语境里的 motivated deception。比如模型为了讨好用户、避免冲突、维护自我形象或通过 reward model 偏好,可能会产生更复杂的欺骗模式;这些模式未必能化约成路径补全或路径切断。换句话说,CSQ 是 deception evaluation 的一个干净实验生物,不是完整生态系统。它的意义在于先把“可测的自发不诚实”钉出一个最小模型。
5. Reviewer Discussion
OpenReview 最终决定是 Accept (Oral)。三位 reviewer 的分数是 8、6、6,讨论总结给出的平均分是 6.7。正面评价集中在问题设定和实验设计:reviewer 认可 benign-prompt deception 是一个重要且不足研究的安全问题,也认可 CSQ 用 synthetic reachability task 隔离 world knowledge contamination 的思路。最高分 reviewer 特别肯定 和 的双指标设计,认为它比直接看错误率更能抓住 deception definition 的核心。
主要批评也相当扎实。第一,scaling claim 一开始写得过强。reviewer 指出模型规模趋势的 只有约 0.336 和 0.360,这不足以支持“清晰趋势”这种措辞,更适合说成一个需要进一步研究的 potential trend。第二,deception 和 hallucination 的边界需要更清楚,尤其当复杂问题失败可能来自推理能力不足时,作者必须证明 follow-up consistency 足以排除纯 hallucination。第三,心理学 framing 有吸引力,但“intention”和“belief”容易让读者误以为作者在做 anthropomorphic claim。第四,CSQ 与已有 deception benchmarks 的差异需要更系统说明。
作者 rebuttal 后新增了 robustness、prompt-induced deception、benchmark comparison、family-wise scaling analysis 和 domain generalization 讨论,reviewer 反馈整体转正。我的客观判断是:这篇 oral 的贡献成立,但成立在 evaluation framework 层面,而不是成立在“证明 LLM 真的有主观欺骗意图”层面。它最强的地方是把 deception 的两个必要面向拆开,并用一个可控任务把二者一起测;它最危险的地方是术语容易被传播成过度结论。
如果把它放进 alignment 阅读路线,这篇应当和 alignment faking、scheming evaluations、weak-to-strong monitoring 放在一起读。它提供的不是一个部署 detector,而是一种思维方式:面对“模型是否不诚实”这种问题,不能只看最终答案对错,必须同时测 方向性偏好、简单 probe 暴露的内部可得信息、以及复杂 expression 中是否使用这些信息。
我还会给这篇一个具体保留:论文把 “simple question 更可能暴露 belief” 作为心理学启发,这在统计上有道理,但对 LLM 不必总成立。模型在简单 follow-up 中答对,可能是因为局部 pattern 更明显,而不是因为它在长问题时“知道却不说”;模型在长问题中答错,也可能是因为注意力或搜索失败,而不是因为隐藏目标。作者通过 和 的相关性缓解了这个问题,但没有完全消除。因此读这篇时应该把 deception 理解成 deception-like inconsistency,这是冷静但更准确的读法。
6. Related Work & Future Work
这篇论文和 prompt-induced deception benchmarks 的关系很直接。那些工作通常通过 system prompt、outer objective 或 designed scenario 让模型说谎;CSQ 则质疑 benign prompt response 本身能否被当成 honest baseline。这个问题非常关键,因为很多 benchmark 把 neutral prompt answer 当作 truthfulness reference,但如果 neutral prompt 也可能出现 deception-like inconsistency,那么基线本身就不干净。
它和 hallucination 研究的关系也值得单独标出来。CSQ 不否认模型会 hallucinate,而是试图构造一个能把 consistent hallucination 和 strategic inconsistency 分开的实验。 的意义在这里:如果模型在长问题和短 probe 上都错,更像 hallucination;如果短 probe 对、长问题错,才更像 deception-like behavior。
后续最重要的方向是把 CSQ 从 graph reachability 推到更真实的任务结构。论文已经讨论 facts-rules-conclusion 结构可以迁移到数学和科学推理,但真正有价值的是 agentic setting:模型在工具日志、文件系统、网页状态和隐藏 side objective 中是否也会表现出类似 belief-expression separation。另一个方向是把 CSQ 和 representation-level methods 结合起来,看看高 或高 样本是否对应稳定 activation pattern,否则它仍然只是行为统计。