观察 · AI 工程 · 2026-05-01
为什么智能体系统比人类更需要溯源
作者:智安睿研究团队
缺乏溯源纪律的人类研究者会产出糟糕的研究。缺乏溯源纪律的智能体 LLM 系统会以规模化的方式产出自信的幻觉。
这种不对称比听上去更重要。糟糕的人类研究者的产出受其吞吐量限制——一天编造的无依据论断终归有限。智能体没有这样的节流。一个每晚产出 200 份报告的管道,无论底层溯源纪律是否完好,每晚都会产出 200 份报告。若纪律不存,结果不是"200 份报告中有几处错误",而是"200 份报告中一部分论断系统性地无法追溯,分布均匀到足以让抽查失效"。
我们多年来一直为客户交付"证据先行"的研究成果。这套框架——A 到 E 的来源分级、置信度评级、公开问题清单——是为人类研究者设计的。当我们开始构建智能体系统时,第一反应是放松它:"智能体工作方式不同,这套框架太过冗余。"我们尝试过。它并不冗余。它正是防止 LLM 系统最昂贵失败模式的那条结构性约束。
"智能体的溯源"在实践中是什么意思
它不是指让模型"引用来源"。这条指令众所周知会更频繁地催生编造的引用而不是缺失的引用——模型已经学会引用是输出格式的一部分,无论是否对应于检索到的证据,它都会生成。
它指的是重构智能体的输出单元。智能体不应产出结论,而应产出证据行:论断、来源标识、来源分级、置信度评级、快照时间戳。报告随后由确定性步骤从已接受的证据行拼装而成。来源标识无法对应到可验证文献的证据行,会在编排层被拒绝,根本无法进入报告。论断离开来源在系统中无法存在——因为数据结构不允许这种状态。
这是结构性约束,而非提示词指令。两者的差别,等同于"请求一个诚实的人不要撒谎"与"设计一个系统让撒谎根本不是可表示的状态"之间的差别。
评测层面的含义
常规 LLM 评测衡量模型输出是否正确。溯源型评测同时衡量三件正交的事,缺一不可:
- 事实性——论断是否与所引来源实际所说一致?
- 归因准确性——所引来源标识是否对应一篇真实可调取的文献?
- 置信度校准——当系统标注一项论断为"高置信"时,它是否经得起 A 类证据复核?
第三项是大多数团队会跳过的指标,因为维护成本最高——需要持续更新的基线集合。它也是最能捕捉那种"看似自信、经不起推敲"的失败模式的指标。
为什么这套人类框架可以迁移
来源分级框架在人类研究者身上奏效的原因,与它在智能体身上奏效的原因相同:它把一种容易在压力下被遗忘的纪律外化了。承受截稿压力的研究者会在归因上偷工减料。承受吞吐压力的智能体会编造来源。这套框架在两种情形下都是强制函数。
不同之处在于失败的代价。偷工减料的人类产出的是审阅人能够追问的交付物。偷工减料的智能体产出的是看起来可审阅的交付物——引用看起来有效——而总量足以让人工审阅失效。对智能体而言,这套纪律不再是可选项,而是结构性不可妥协。