面向安全关键 LLM 应用的生产级评测体系——案例

方法论背景——本案例采用智安睿证据先行方法论，第 6 节专门讲述我们如何工程 AI 系统。若评测体系相关词汇不熟悉，建议先阅读那里。

项目背景

行业：受监管的健康科技。核心需求：客户构建了一套由 LLM 驱动的分诊助手，帮助临床人员将患者咨询路由到合适的护理路径。系统本身运行正常——但每当上游模型厂商发布更新，团队都要花两周时间手工再验证，才能让新模型进入生产环境。他们需要一套评测体系，能够自动判断模型升级是否可以安全上线。

工作流拆解

WS-1：失败模式分类。梳理该受监管领域无法容忍的具体失败模式——高危病例分诊不足、特定人群校准漂移、编造药物相互作用、把紧急护理引向无关方向。
WS-2：评测数据集构建。构建 1,400 个基线案例，结合：（a）客户日志中已裁定的历史案例，（b）由临床医师编写、用以探测特定失败模式的合成边缘案例，（c）针对已知 LLM 薄弱点设计的对抗性提示。
WS-3：多评审打分。不再依赖单 LLM 作为评审。每个案例三位独立评审——两位来自不同模型家族的 LLM 评审，一位人在回路抽样——评审分歧时自动升级。
WS-4：部署门控与回归检测。把评测体系接入客户的部署管道。新模型版本必须满足：（a）总分追平或超过现役版本，（b）任何单一失败模式子集上的回归不超过配置容差，（c）通过人群校准检查——否则无法进入生产环境。

方法亮点

最关键的设计抉择是按失败模式子集而非总分对模型打分。在这个领域里，平均分提高 3%、却在分诊不足子集上回归 12% 的新模型——其实是更差的——而总分评测会漏掉这件事。评测体系将每个子集的差值作为常规上报项；部署门控的容差按子集分别配置。

第二个关键抉择是拒绝纯合成评测数据。合成案例对于探测已知失败模式很有用，但它们会过拟合到团队已知要找的东西。评测体系要求每次发布评测中必须有可观比例的案例来自上次发布以来已裁定的近期生产日志——以确保评测对真实分布漂移保持诚实。

交付物

可安装的评测体系服务，支持 CI 与本地运行。
1,400 案例基线数据集，带版本管理、来源标注与裁定说明。
多评审打分基础设施，含分歧触发的升级队列。
部署门控接入客户的 CD 管道；按子集可配置阈值。
文档：如何新增失败模式、如何从生产日志刷新数据集、如何解读回归报告。
研究报告：38 条来源行，记录失败模式选择依据。

结果

从上游模型发布到客户生产部署的时间从约 14 天缩短到约 2 天，团队对部署决策的信心反而提升而非下降。投产以来一年内，评测体系拦下并回滚了三次本会上线的模型升级——两次因分诊不足回归，一次因特定人群校准漂移。这三次都不会被总分评测捕获。

该评测体系如今已被用作参考架构，评估客户后续部署的另外两套 LLM 驱动系统。

← 全部案例