研究方法
工作方式
定义智安睿每一项委托的六个核心实践。不是口号——而是交付物所依托的结构。
如果您正在委托一份下游需要被人捍卫的研究——监管机构、董事会、投资人、审计——本页讲述我们如何让它经得起捍卫。如果您正在构建一套必须在生产环境中经受考验的 AI 系统,第 6 节讲我们如何工程那类系统。
01
工作流模型
每项委托都从拆解开始。我们不会接受需求后消失——而是在第一次工作会议中将问题拆解为一组平行工作流,每个工作流都有独立的范围、证据要求和交付里程碑。
拆解服务两个目的:使客户期望与可行性对齐,并为双方提供共同的术语来跟踪进展。工作流可以暂停、重新定义范围或拆分,而不会影响整体。
每个工作流都有我方指定的负责人。负责人是研究者,不是项目经理——负责技术工作的人就是汇报进展的人。
02
分级证据框架
智安睿交付物中的每一条论断都对应到具体来源。来源分为五个等级:
03
证据行
智安睿交付物中单条论断的结构——这就是证据先行在实践中的样子。
在代码中,一条证据行是这样:
claim: "硬件信任根可扩展至 OT/ICS 改造场景"
tier: A # A 一手 / B 登记 / C 学术 / D 公开报道 / E 用户生成
confidence: HIGH # HIGH / MED / LOW / UNVERIFIED
source_id: "SRC.014.2" # 可解析到可验证的来源文献
snapshot_at: 2026-04-22T11:14Z
authored_by: "researcher_03" # 或 "agent_v3.2" —— 同一套规则治理 缺少任一字段的证据行,在到达报告之前会被编排层拒绝。系统中不存在"论断离开来源"这种可表示状态。
A 实验室测试——内部,2025 年第三季度,n=1200 单位
高——在两批测试中复现
85°C 以上的环境漂移未经测试
04
置信度评级
每项发现都标注置信度。我们使用四个级别:
| 级别 | 含义 | 使用方式 |
|---|---|---|
| 高 | 多个独立 A/B 级来源一致 | 作为结论陈述,可直接行动 |
| 中 | 单一强来源或多个弱来源 | 作为结论陈述,附来源背景 |
| 低 | 合理但来源不足 | 标记为暂定,建议升级处理 |
| 未证实 | 他处声称但未经独立确认 | 仅列入公开问题清单 |
05
公开问题清单
每份智安睿交付物都包含公开问题清单:一个结构化的列表,记录我们无法验证的事项、无法解决的矛盾以及不得不做出的假设。
这是不可协商的原则。我们不掩盖不一致之处。如果两个来源相互矛盾且我们无法判断哪个正确,两者都会记录,矛盾会被描述,客户决定如何处理。
公开问题清单不是弱点的标志——而是严谨的标志。任何对每个论点都给出确定性答案的咨询机构,要么在隐藏不确定性,要么是没有足够深入地研究。
06
我们如何工程 AI 系统
当我们构建大语言模型(LLM)系统或智能体管道(多步流程,其中一个或多个模型按顺序执行动作)时,沿用同一套溯源纪律——并针对 AI 委托额外加上三条。
上文五条实践是为人类研究者设计的。AI 系统会突破其中两条实践原本依赖的安全网——产出速度远超人工审阅能力,且在约束不足时会编造看似合理的引用。下面三条加项正是为弥合这两道缺口。
评测先行的交付
评测套件是判断模型是否足以上线的自动化测试基础设施。评测体系在它所评测的 AI 系统之前交付。基线数据集、多评审打分(每个案例多于一位独立评审,以捕捉单一评审会漏掉的失败)、按失败模式划分的子集、部署门控阈值——在任何模型对外服务请求之前,全部就位。无例外。没有评测体系的系统,不是我们会发布的系统。
模型无关的姿态
我们交付的系统不绑定特定模型或厂商。方法论存在于评测、提示词、检索架构与编排之中——而非某个模型的权重里。当下一代更优模型出现时,系统在评测门控之后切换模型;其余部分不动。
我们自己也使用的 AI 增强研究工作流
我们在自己的研究管道中使用 AI 智能体——采集候选文献、判定其分级、检测冲突、给置信度评分。同一套"证据先行"纪律在智能体身上与在人类身上一样适用:每条论断都对应到来源行;智能体提议、人类决定;分歧被记录并用于重新校准。详见《我们内部使用的 LLM 增强研究工作流》。
这种对称性很重要。一家"内部 AI 用法"与"对外交付系统"受不同规则治理的咨询公司,等于在暗示规则只是营销而非结构。我们的规则是结构。