01

工作流模型

每项委托都从拆解开始。我们不会接受需求后消失——而是在第一次工作会议中将问题拆解为一组平行工作流,每个工作流都有独立的范围、证据要求和交付里程碑。

拆解服务两个目的:使客户期望与可行性对齐,并为双方提供共同的术语来跟踪进展。工作流可以暂停、重新定义范围或拆分,而不会影响整体。

每个工作流都有我方指定的负责人。负责人是研究者,不是项目经理——负责技术工作的人就是汇报进展的人。

02

分级证据框架

智安睿交付物中的每一条论断都对应到具体来源。来源分为五个等级:

等级说明权重示例置信度
A一手资料——直接实验、测量或访谈最高实验室结果
B登记备案——官方文件、专利、数据库专利申请
C学术——同行评审论文、预印本、学位论文中等IEEE 论文
D公开报道——新闻、行业出版物、新闻稿较低行业文章
E用户生成——论坛、社交媒体、社区报告最低论坛帖子

03

证据行

智安睿交付物中单条论断的结构——这就是证据先行在实践中的样子。

在代码中,一条证据行是这样:

claim:        "硬件信任根可扩展至 OT/ICS 改造场景"
tier:         A             # A 一手 / B 登记 / C 学术 / D 公开报道 / E 用户生成
confidence:   HIGH          # HIGH / MED / LOW / UNVERIFIED
source_id:    "SRC.014.2"    # 可解析到可验证的来源文献
snapshot_at:  2026-04-22T11:14Z
authored_by:  "researcher_03"  # 或 "agent_v3.2" —— 同一套规则治理

缺少任一字段的证据行,在到达报告之前会被编排层拒绝。系统中不存在"论断离开来源"这种可表示状态。

论断:基于 PUF 的设备认证在被测供应链环节中将仿冒品进入率降低了 94%。
来源
A 实验室测试——内部,2025 年第三季度,n=1200 单位
置信度
——在两批测试中复现
公开问题
85°C 以上的环境漂移未经测试

04

置信度评级

每项发现都标注置信度。我们使用四个级别:

级别含义使用方式
多个独立 A/B 级来源一致作为结论陈述,可直接行动
单一强来源或多个弱来源作为结论陈述,附来源背景
合理但来源不足标记为暂定,建议升级处理
未证实他处声称但未经独立确认仅列入公开问题清单

05

公开问题清单

每份智安睿交付物都包含公开问题清单:一个结构化的列表,记录我们无法验证的事项、无法解决的矛盾以及不得不做出的假设。

这是不可协商的原则。我们不掩盖不一致之处。如果两个来源相互矛盾且我们无法判断哪个正确,两者都会记录,矛盾会被描述,客户决定如何处理。

公开问题清单不是弱点的标志——而是严谨的标志。任何对每个论点都给出确定性答案的咨询机构,要么在隐藏不确定性,要么是没有足够深入地研究。

06

我们如何工程 AI 系统

当我们构建大语言模型(LLM)系统或智能体管道(多步流程,其中一个或多个模型按顺序执行动作)时,沿用同一套溯源纪律——并针对 AI 委托额外加上三条。

上文五条实践是为人类研究者设计的。AI 系统会突破其中两条实践原本依赖的安全网——产出速度远超人工审阅能力,且在约束不足时会编造看似合理的引用。下面三条加项正是为弥合这两道缺口。

评测先行的交付

评测套件是判断模型是否足以上线的自动化测试基础设施。评测体系在它所评测的 AI 系统之前交付。基线数据集、多评审打分(每个案例多于一位独立评审,以捕捉单一评审会漏掉的失败)、按失败模式划分的子集、部署门控阈值——在任何模型对外服务请求之前,全部就位。无例外。没有评测体系的系统,不是我们会发布的系统。

模型无关的姿态

我们交付的系统不绑定特定模型或厂商。方法论存在于评测、提示词、检索架构与编排之中——而非某个模型的权重里。当下一代更优模型出现时,系统在评测门控之后切换模型;其余部分不动。

我们自己也使用的 AI 增强研究工作流

我们在自己的研究管道中使用 AI 智能体——采集候选文献、判定其分级、检测冲突、给置信度评分。同一套"证据先行"纪律在智能体身上与在人类身上一样适用:每条论断都对应到来源行;智能体提议、人类决定;分歧被记录并用于重新校准。详见《我们内部使用的 LLM 增强研究工作流》

这种对称性很重要。一家"内部 AI 用法"与"对外交付系统"受不同规则治理的咨询公司,等于在暗示规则只是营销而非结构。我们的规则是结构。

在实践中查看

我们的案例展示了这套方法论在真实项目中的应用。

查看案例 →