用于合规尽调的智能体 LLM 管道——案例

方法论背景——本案例采用智安睿证据先行方法论（工作流拆解、来源分级证据、置信度评级、公开问题清单）。若不熟悉该框架，建议先阅读方法论页面。

项目背景

行业：合规 / 跨领域（工业网络安全）。核心需求：构建一套智能体 LLM 系统，针对供应商侧网络安全姿态生成结构化的尽调报告，并能在有限时间内覆盖数百家供应商。客户内部分析师手工完成一家供应商的同类报告需约 12 小时；按手工方式覆盖整个供应商群体在工程上不可行。客户要求输出结构与内部手工流程保持一致——包括 A–E 来源分级证据框架与公开问题清单。

工作流拆解

WS-1：方法论编码。将智安睿"证据先行"交付框架——工作流计划、A–E 来源分级、置信度评级、公开问题清单——转化为带明确角色与交接契约的智能体规范。
WS-2：智能体设计。构建五个专职智能体——采集、分级判定、论断抽取、冲突检测、置信度评分——通过编排层连接，强制要求证据行在进入报告前必须信息完备。
WS-3：评测先行。在智能体系统构建之前先建立评测体系。240 份人工评分尽调报告作为基线；跨事实性、来源归因准确性、置信度校准三维度多评审打分。部署门控会阻止任何在校准指标上出现回归的发布。
WS-4：人在回路审阅层。评审界面用于人工复核被标记的冲突与未证实论断，再由智安睿分析师定稿报告。

方法亮点

关键设计抉择：智能体不直接产出"结论"。它们产出证据行——论断 + 来源 + 分级 + 置信度 + 快照时间戳。报告由确定性步骤从已接受的证据行中拼装，而不是由生成步骤产出。这把 LLM 最常见的失败模式（自信地编造）压缩为结构性约束：缺少可验证来源标识的证据行会在编排层被拒绝，根本无法进入报告。

评测体系随后在与智安睿手工交付物相同的三个维度衡量系统：事实性（论断与来源是否吻合）、归因准确性（来源标识是否对应真实文献）、置信度校准（系统标注"高置信"的论断在与基线 A 类证据复核时是否站得住脚）。

交付物

多智能体编排系统，包含五个专职智能体，模型无关（可插拔供应商）。
评测体系，含 240 份基线尽调报告与持续回归测试套件。
评审界面，用于人在回路验证被标记的论断。
方法论编码决策的研究报告：47 条来源行。
运维交接：模型升级操作手册、提示词修订变更控制、评测阈值维护流程。

结果

系统以约 6% 的边际时间成本（相对于人工基线）产出供应商报告，结构与人工交付物完全对齐。校准指标（"高置信"论断在 A 类证据复核中站得住脚的比例）在投产后头三个月稳定在 91% 左右，与人工基线的 95% 差距在 4 个百分点以内。这 4 个点的差距已记入公开问题清单，并附缓解方案。

客户将同一套评测体系作为后续智能体迭代的部署门控。WS-1 的方法论编码也被定为内部标准。

← 全部案例