我们内部使用的 LLM 增强研究工作流

大多数咨询公司把内部 AI 使用藏在"人类执笔"的帘子后面。说辞大致是："交付物由我们的分析师撰写；我们可能用了 AI 帮忙，但工作是人做的。" 我们认为这块帘子带来的伤害多于收益——对客户、对行业讨论、对我们自己的工作都是如此。所以这篇笔记说明我们实际在哪里、用什么、施加了什么纪律。

智能体在我们研究管道里到底做什么

一个典型的智安睿研究工作流从客户简报开始，最终产出一份结构化报告——论断对应到来源行、A–E 分级、置信度评级、公开问题清单。产出这份报告的管道，在以下环节有智能体步骤：

来源识别。给定简报与立项大纲，一个智能体枚举候选来源领域与文献类型。人工评审做删减与增补。智能体没有把来源直接确定进报告的权限；它产出的是候选列表。
分级判定。给定一个候选来源，智能体提出 A–E 分级判定及其理由。人工评审决定接受、否决或修订。智能体与评审之间的分歧会被记录；定期复核分歧日志，是我们重新校准智能体的方式。
冲突检测。给定一份报告草稿与来源集合，智能体标记彼此矛盾的论断、与所引来源相悖的论断，以及来源强度弱于置信度评级所示的论断。智能体不解决冲突——它把冲突浮上来，交给公开问题清单。
置信度评分。给定一项论断与其来源，智能体提出置信度评级。同上，评审接受或修订；分歧反馈到校准中。

四个环节模式一致：智能体提议，人类决定。智能体做受吞吐限制的工作——枚举、分类、交叉核对——以人类无法匹敌的速度。人类做受判断限制的工作——接受、否决、放入语境。两者互不替代。

为什么我们要把这件事讲清楚

三个原因。

第一，客户有权知道交付物是怎么产出的。在工作流中含智能体步骤的报告，质量并不低于完全由人类产出的报告——但它是另一种生产流程，有着不同的失败模式。装作两者相同是一类范畴错误，迟早会以一次不愉快的意外形式显现。

第二，我们出售关于 AI 系统工程的研究。一家为客户构建 AI 系统、却假装自己工作中不使用 AI 的咨询公司，等于在通过后门做出一个架构论断——即 AI 系统不够可靠、无法承担正经研究。我们不这么认为。在上文所述的纪律下，我们的系统足够可靠以承担我们自己的研究；在同一套纪律下，它们也足够可靠以承担客户的生产部署。内部实践与对外交付物是一致的。

第三，纪律是可迁移的。我们内部工作流中的智能体，受与人类研究者及客户智能体系统同样的"证据先行"框架治理。框架并不关心产出证据行的实体是人类还是模型——它关心的是这一行能否对应到可验证的来源。这种对称性正是关键。一家"内部 AI 用法"与"对外交付系统"受不同规则治理的咨询公司，等于在暗示规则并非结构性，只是营销说辞。

这套纪律具体长什么样

我们管道中的智能体在三条规则下运作：

任何智能体都不直接把内容交付到产物中。每个智能体产出都是候选，进入人工评审队列。最终报告只包含通过评审的内容。
分歧被记录在案。每次评审覆盖智能体决定，都会附简短理由记录下来。定期——目前是每周——抽样覆盖日志，用以重新校准智能体并更新其提示词。
智能体提示词与研究一同做版本管理。在智能体提示词 v3.2 下产出的论断，会在其来源行中携带该版本号。如果日后发现 v3.2 有系统性偏差，我们能找到所有受其影响的论断。

这不是大多数内部 AI 工作流的样子。大多数工作流在某处有一个智能体步骤，末尾有一个人，中间没有任何日志。交付物看上去一样，可审计性却不一样。

我们为什么会继续公开这么做

当前对咨询公司而言，有一个舒服的位置可坐：内部不用 AI，并告诉客户你手工打磨的交付物胜过那些"AI 增强"竞争对手的产出。还有一个不那么舒服的位置：在纪律下使用 AI、把这件事讲清楚，让客户判断这套纪律产出的工作是否优于纪律的缺位。

我们选择那个不那么舒服的位置。我们的交付物明确由人类与智能体协作产出，智能体接受与人类同样的证据框架约束。这个结果就是我们愿意被衡量的东西。不愿意说清楚自己工作流里有什么的咨询公司，是工作流里有些它们辩护不了的东西的咨询公司。

← 全部观察