方法论背景——本案例采用智安睿证据先行方法论(工作流拆解、来源分级证据、置信度评级、公开问题清单)。若不熟悉该框架,建议先阅读方法论页面。

带溯源门控的 LLM 智能体流

项目背景

行业:合规 / 跨领域(工业网络安全)。核心需求:构建一套智能体 LLM 系统,针对供应商侧网络安全姿态生成结构化的尽调报告,并能在有限时间内覆盖数百家供应商。客户内部分析师手工完成一家供应商的同类报告需约 12 小时;按手工方式覆盖整个供应商群体在工程上不可行。客户要求输出结构与内部手工流程保持一致——包括 A–E 来源分级证据框架与公开问题清单。

工作流拆解

  • WS-1:方法论编码。将智安睿"证据先行"交付框架——工作流计划、A–E 来源分级、置信度评级、公开问题清单——转化为带明确角色与交接契约的智能体规范。
  • WS-2:智能体设计。构建五个专职智能体——采集分级判定论断抽取冲突检测置信度评分——通过编排层连接,强制要求证据行在进入报告前必须信息完备。
  • WS-3:评测先行。在智能体系统构建之前先建立评测体系。240 份人工评分尽调报告作为基线;跨事实性、来源归因准确性、置信度校准三维度多评审打分。部署门控会阻止任何在校准指标上出现回归的发布。
  • WS-4:人在回路审阅层。评审界面用于人工复核被标记的冲突与未证实论断,再由智安睿分析师定稿报告。

方法亮点

关键设计抉择:智能体不直接产出"结论"。它们产出证据行——论断 + 来源 + 分级 + 置信度 + 快照时间戳。报告由确定性步骤从已接受的证据行中拼装,而不是由生成步骤产出。这把 LLM 最常见的失败模式(自信地编造)压缩为结构性约束:缺少可验证来源标识的证据行会在编排层被拒绝,根本无法进入报告。

评测体系随后在与智安睿手工交付物相同的三个维度衡量系统:事实性(论断与来源是否吻合)、归因准确性(来源标识是否对应真实文献)、置信度校准(系统标注"高置信"的论断在与基线 A 类证据复核时是否站得住脚)。

交付物

  • 多智能体编排系统,包含五个专职智能体,模型无关(可插拔供应商)。
  • 评测体系,含 240 份基线尽调报告与持续回归测试套件。
  • 评审界面,用于人在回路验证被标记的论断。
  • 方法论编码决策的研究报告:47 条来源行。
  • 运维交接:模型升级操作手册、提示词修订变更控制、评测阈值维护流程。

结果

系统以约 6% 的边际时间成本(相对于人工基线)产出供应商报告,结构与人工交付物完全对齐。校准指标("高置信"论断在 A 类证据复核中站得住脚的比例)在投产后头三个月稳定在 91% 左右,与人工基线的 95% 差距在 4 个百分点以内。这 4 个点的差距已记入公开问题清单,并附缓解方案。

客户将同一套评测体系作为后续智能体迭代的部署门控。WS-1 的方法论编码也被定为内部标准。