为什么智能体系统比人类更需要溯源

缺乏溯源纪律的人类研究者会产出糟糕的研究。缺乏溯源纪律的智能体 LLM 系统会以规模化的方式产出自信的幻觉。

这种不对称比听上去更重要。糟糕的人类研究者的产出受其吞吐量限制——一天编造的无依据论断终归有限。智能体没有这样的节流。一个每晚产出 200 份报告的管道，无论底层溯源纪律是否完好，每晚都会产出 200 份报告。若纪律不存，结果不是"200 份报告中有几处错误"，而是"200 份报告中一部分论断系统性地无法追溯，分布均匀到足以让抽查失效"。

我们多年来一直为客户交付"证据先行"的研究成果。这套框架——A 到 E 的来源分级、置信度评级、公开问题清单——是为人类研究者设计的。当我们开始构建智能体系统时，第一反应是放松它："智能体工作方式不同，这套框架太过冗余。"我们尝试过。它并不冗余。它正是防止 LLM 系统最昂贵失败模式的那条结构性约束。

"智能体的溯源"在实践中是什么意思

它不是指让模型"引用来源"。这条指令众所周知会更频繁地催生编造的引用而不是缺失的引用——模型已经学会引用是输出格式的一部分，无论是否对应于检索到的证据，它都会生成。

它指的是重构智能体的输出单元。智能体不应产出结论，而应产出证据行：论断、来源标识、来源分级、置信度评级、快照时间戳。报告随后由确定性步骤从已接受的证据行拼装而成。来源标识无法对应到可验证文献的证据行，会在编排层被拒绝，根本无法进入报告。论断离开来源在系统中无法存在——因为数据结构不允许这种状态。

这是结构性约束，而非提示词指令。两者的差别，等同于"请求一个诚实的人不要撒谎"与"设计一个系统让撒谎根本不是可表示的状态"之间的差别。

评测层面的含义

常规 LLM 评测衡量模型输出是否正确。溯源型评测同时衡量三件正交的事，缺一不可：

事实性——论断是否与所引来源实际所说一致？
归因准确性——所引来源标识是否对应一篇真实可调取的文献？
置信度校准——当系统标注一项论断为"高置信"时，它是否经得起 A 类证据复核？

第三项是大多数团队会跳过的指标，因为维护成本最高——需要持续更新的基线集合。它也是最能捕捉那种"看似自信、经不起推敲"的失败模式的指标。

为什么这套人类框架可以迁移

来源分级框架在人类研究者身上奏效的原因，与它在智能体身上奏效的原因相同：它把一种容易在压力下被遗忘的纪律外化了。承受截稿压力的研究者会在归因上偷工减料。承受吞吐压力的智能体会编造来源。这套框架在两种情形下都是强制函数。

不同之处在于失败的代价。偷工减料的人类产出的是审阅人能够追问的交付物。偷工减料的智能体产出的是看起来可审阅的交付物——引用看起来有效——而总量足以让人工审阅失效。对智能体而言，这套纪律不再是可选项，而是结构性不可妥协。

← 全部观察