面向遗留工程文档的溯源型 RAG 系统——案例

方法论背景——本案例将智安睿证据先行方法论应用于一套 RAG 系统。文中所引分块策略基准记录于实验笔记。

项目背景

行业：受监管的工业工程。核心需求：客户拥有约 38,000 份 PDF 文档——图纸、规范、变更通知、测试报告、监管报送材料——历经二十年积累。工程师花在翻找上的时间过多。客户希望有一套 RAG 系统，能用自然语言回答工程问题，并完整溯源到来源文献与页码。"完整溯源"是不可妥协的要求：在这个领域，一个没有出处的答复比没有答复更糟。

工作流拆解

WS-1：分块策略基准测试。在 200 个代表性工程问题的留出评测集上测试七种分块策略。策略从简单的固定长度分块，到版面感知（按文档章节边界切分），再到语义分块（按段落级连贯性、由模型判定边界）。
WS-2：带领域先验的重排序。对技术文档而言，仅靠双编码器检索不够——文档集合中存在太多表面相似的分块（同一构件出现在几十张图纸中）。构建一个领域专用重排序器，基于文档类型、版本时间、显式的修订替代关系来提升分块排序。
WS-3：来源归因机制。每条生成答复都带内联引用，解析为（文献 ID，页码，修订号）。引用不是末尾附录——而是在模型生成时就嵌入响应流中。后处理步骤验证每个引用是否对应已检索集合中的真实分块；无法验证的引用会导致该答复被拒绝，并以更严格的约束重新生成。
WS-4：面向幻觉的评测。常规 RAG 评测衡量答复相关性。我们额外构建了引用幻觉评测：提取模型答复中每对引用（文献 ID，页码），验证其（a）真实存在，（b）实际包含该引用所支撑的内容。在（b）上的失败是隐性幻觉——引用看起来有效，实则误导。这是常规评测会漏掉的失败模式。

方法亮点

核心架构洞见：RAG 不是套了生成外壳的搜索问题，而是建立在检索基底之上的生成问题。把它当搜索做，会产出能找到正确文献、却对其作出自信而无法验证总结的系统。溯源型设计反转了这一点：生成步骤被约束为只能产出可解析回具体检索分块的论断，引用是输出的结构性组成部分，而非事后附加。

WS-1 的分块策略基准给出了一个反直觉的结果：在该语料上，版面感知分块在显著程度上超过了语义分块。我们推测这是因为该文档集本身就是为导航而设计的——章节边界是作者刻意的设计决策，尊重这些边界比让 LLM 判定段落边界更能保留连贯性。

交付物

具备溯源型生成、引用验证与修订替代处理的 RAG 系统。
分块策略基准报告：方法、七种策略对比结果与推荐方案依据。
引用幻觉评测套件，作为可在 CI 中运行的测试件。
运维指南：如何接入新文档语料、如何审核归因可疑的答复、何时下线某个语料修订。
研究报告：52 条来源行，含分块策略基准的方法论。

结果

使用该系统的工程师查找文档的速度比手工浏览快 4 至 6 倍，瓶颈从"找文档"转移到了"验证答复"。投产后，引用幻觉率在 200 题评测集上为 1.4% ，而客户此前评估过的基线 RAG 实现为 11% 至 18%。客户随后将分块策略基准方法用于另外两个引入该系统的文档语料。

← 全部案例