观察 · AI 工程 · 2026-04-10
我们内部使用的 LLM 增强研究工作流
作者:智安睿研究团队
大多数咨询公司把内部 AI 使用藏在"人类执笔"的帘子后面。说辞大致是:"交付物由我们的分析师撰写;我们可能用了 AI 帮忙,但工作是人做的。" 我们认为这块帘子带来的伤害多于收益——对客户、对行业讨论、对我们自己的工作都是如此。所以这篇笔记说明我们实际在哪里、用什么、施加了什么纪律。
智能体在我们研究管道里到底做什么
一个典型的智安睿研究工作流从客户简报开始,最终产出一份结构化报告——论断对应到来源行、A–E 分级、置信度评级、公开问题清单。产出这份报告的管道,在以下环节有智能体步骤:
- 来源识别。给定简报与立项大纲,一个智能体枚举候选来源领域与文献类型。人工评审做删减与增补。智能体没有把来源直接确定进报告的权限;它产出的是候选列表。
- 分级判定。给定一个候选来源,智能体提出 A–E 分级判定及其理由。人工评审决定接受、否决或修订。智能体与评审之间的分歧会被记录;定期复核分歧日志,是我们重新校准智能体的方式。
- 冲突检测。给定一份报告草稿与来源集合,智能体标记彼此矛盾的论断、与所引来源相悖的论断,以及来源强度弱于置信度评级所示的论断。智能体不解决冲突——它把冲突浮上来,交给公开问题清单。
- 置信度评分。给定一项论断与其来源,智能体提出置信度评级。同上,评审接受或修订;分歧反馈到校准中。
四个环节模式一致:智能体提议,人类决定。智能体做受吞吐限制的工作——枚举、分类、交叉核对——以人类无法匹敌的速度。人类做受判断限制的工作——接受、否决、放入语境。两者互不替代。
为什么我们要把这件事讲清楚
三个原因。
第一,客户有权知道交付物是怎么产出的。在工作流中含智能体步骤的报告,质量并不低于完全由人类产出的报告——但它是另一种生产流程,有着不同的失败模式。装作两者相同是一类范畴错误,迟早会以一次不愉快的意外形式显现。
第二,我们出售关于 AI 系统工程的研究。一家为客户构建 AI 系统、却假装自己工作中不使用 AI 的咨询公司,等于在通过后门做出一个架构论断——即 AI 系统不够可靠、无法承担正经研究。我们不这么认为。在上文所述的纪律下,我们的系统足够可靠以承担我们自己的研究;在同一套纪律下,它们也足够可靠以承担客户的生产部署。内部实践与对外交付物是一致的。
第三,纪律是可迁移的。我们内部工作流中的智能体,受与人类研究者及客户智能体系统同样的"证据先行"框架治理。框架并不关心产出证据行的实体是人类还是模型——它关心的是这一行能否对应到可验证的来源。这种对称性正是关键。一家"内部 AI 用法"与"对外交付系统"受不同规则治理的咨询公司,等于在暗示规则并非结构性,只是营销说辞。
这套纪律具体长什么样
我们管道中的智能体在三条规则下运作:
- 任何智能体都不直接把内容交付到产物中。每个智能体产出都是候选,进入人工评审队列。最终报告只包含通过评审的内容。
- 分歧被记录在案。每次评审覆盖智能体决定,都会附简短理由记录下来。定期——目前是每周——抽样覆盖日志,用以重新校准智能体并更新其提示词。
- 智能体提示词与研究一同做版本管理。在智能体提示词 v3.2 下产出的论断,会在其来源行中携带该版本号。如果日后发现 v3.2 有系统性偏差,我们能找到所有受其影响的论断。
这不是大多数内部 AI 工作流的样子。大多数工作流在某处有一个智能体步骤,末尾有一个人,中间没有任何日志。交付物看上去一样,可审计性却不一样。
我们为什么会继续公开这么做
当前对咨询公司而言,有一个舒服的位置可坐:内部不用 AI,并告诉客户你手工打磨的交付物胜过那些"AI 增强"竞争对手的产出。还有一个不那么舒服的位置:在纪律下使用 AI、把这件事讲清楚,让客户判断这套纪律产出的工作是否优于纪律的缺位。
我们选择那个不那么舒服的位置。我们的交付物明确由人类与智能体协作产出,智能体接受与人类同样的证据框架约束。这个结果就是我们愿意被衡量的东西。不愿意说清楚自己工作流里有什么的咨询公司,是工作流里有些它们辩护不了的东西的咨询公司。