工作方式 — Zhianrui 智安睿

工作流模型

每项委托都从拆解开始。我们不会接受需求后消失——而是在第一次工作会议中将问题拆解为一组平行工作流，每个工作流都有独立的范围、证据要求和交付里程碑。

拆解服务两个目的：使客户期望与可行性对齐，并为双方提供共同的术语来跟踪进展。工作流可以暂停、重新定义范围或拆分，而不会影响整体。

每个工作流都有我方指定的负责人。负责人是研究者，不是项目经理——负责技术工作的人就是汇报进展的人。

分级证据框架

智安睿交付物中的每一条论断都对应到具体来源。来源分为五个等级：

等级说明权重示例置信度

A一手资料——直接实验、测量或访谈最高实验室结果高

B登记备案——官方文件、专利、数据库高专利申请高

C学术——同行评审论文、预印本、学位论文中等IEEE 论文中

D公开报道——新闻、行业出版物、新闻稿较低行业文章中

E用户生成——论坛、社交媒体、社区报告最低论坛帖子低

证据行

智安睿交付物中单条论断的结构——这就是证据先行在实践中的样子。

在代码中，一条证据行是这样：

claim:        "硬件信任根可扩展至 OT/ICS 改造场景"
tier:         A             # A 一手 / B 登记 / C 学术 / D 公开报道 / E 用户生成
confidence:   HIGH          # HIGH / MED / LOW / UNVERIFIED
source_id:    "SRC.014.2"    # 可解析到可验证的来源文献
snapshot_at:  2026-04-22T11:14Z
authored_by:  "researcher_03"  # 或 "agent_v3.2" —— 同一套规则治理

缺少任一字段的证据行，在到达报告之前会被编排层拒绝。系统中不存在"论断离开来源"这种可表示状态。

论断：基于 PUF 的设备认证在被测供应链环节中将仿冒品进入率降低了 94%。

来源
A 实验室测试——内部，2025 年第三季度，n=1200 单位

置信度
高——在两批测试中复现

公开问题
85°C 以上的环境漂移未经测试

置信度评级

每项发现都标注置信度。我们使用四个级别：

级别	含义	使用方式
高	多个独立 A/B 级来源一致	作为结论陈述，可直接行动
中	单一强来源或多个弱来源	作为结论陈述，附来源背景
低	合理但来源不足	标记为暂定，建议升级处理
未证实	他处声称但未经独立确认	仅列入公开问题清单

公开问题清单

每份智安睿交付物都包含公开问题清单：一个结构化的列表，记录我们无法验证的事项、无法解决的矛盾以及不得不做出的假设。

这是不可协商的原则。我们不掩盖不一致之处。如果两个来源相互矛盾且我们无法判断哪个正确，两者都会记录，矛盾会被描述，客户决定如何处理。

公开问题清单不是弱点的标志——而是严谨的标志。任何对每个论点都给出确定性答案的咨询机构，要么在隐藏不确定性，要么是没有足够深入地研究。

我们如何工程 AI 系统

当我们构建大语言模型（LLM）系统或智能体管道（多步流程，其中一个或多个模型按顺序执行动作）时，沿用同一套溯源纪律——并针对 AI 委托额外加上三条。

上文五条实践是为人类研究者设计的。AI 系统会突破其中两条实践原本依赖的安全网——产出速度远超人工审阅能力，且在约束不足时会编造看似合理的引用。下面三条加项正是为弥合这两道缺口。

评测先行的交付

评测套件是判断模型是否足以上线的自动化测试基础设施。评测体系在它所评测的 AI 系统之前交付。基线数据集、多评审打分（每个案例多于一位独立评审，以捕捉单一评审会漏掉的失败）、按失败模式划分的子集、部署门控阈值——在任何模型对外服务请求之前，全部就位。无例外。没有评测体系的系统，不是我们会发布的系统。

模型无关的姿态

我们交付的系统不绑定特定模型或厂商。方法论存在于评测、提示词、检索架构与编排之中——而非某个模型的权重里。当下一代更优模型出现时，系统在评测门控之后切换模型；其余部分不动。

我们自己也使用的 AI 增强研究工作流

我们在自己的研究管道中使用 AI 智能体——采集候选文献、判定其分级、检测冲突、给置信度评分。同一套"证据先行"纪律在智能体身上与在人类身上一样适用：每条论断都对应到来源行；智能体提议、人类决定；分歧被记录并用于重新校准。详见《我们内部使用的 LLM 增强研究工作流》。

这种对称性很重要。一家"内部 AI 用法"与"对外交付系统"受不同规则治理的咨询公司，等于在暗示规则只是营销而非结构。我们的规则是结构。

在实践中查看

我们的案例展示了这套方法论在真实项目中的应用。

查看案例 →