方法论背景——本案例将智安睿证据先行方法论应用于一套 RAG 系统。文中所引分块策略基准记录于实验笔记

溯源型 RAG 管道

项目背景

行业:受监管的工业工程。核心需求:客户拥有约 38,000 份 PDF 文档——图纸、规范、变更通知、测试报告、监管报送材料——历经二十年积累。工程师花在翻找上的时间过多。客户希望有一套 RAG 系统,能用自然语言回答工程问题,并完整溯源到来源文献与页码。"完整溯源"是不可妥协的要求:在这个领域,一个没有出处的答复比没有答复更糟。

工作流拆解

  • WS-1:分块策略基准测试。在 200 个代表性工程问题的留出评测集上测试七种分块策略。策略从简单的固定长度分块,到版面感知(按文档章节边界切分),再到语义分块(按段落级连贯性、由模型判定边界)。
  • WS-2:带领域先验的重排序。对技术文档而言,仅靠双编码器检索不够——文档集合中存在太多表面相似的分块(同一构件出现在几十张图纸中)。构建一个领域专用重排序器,基于文档类型、版本时间、显式的修订替代关系来提升分块排序。
  • WS-3:来源归因机制。每条生成答复都带内联引用,解析为(文献 ID,页码,修订号)。引用不是末尾附录——而是在模型生成时就嵌入响应流中。后处理步骤验证每个引用是否对应已检索集合中的真实分块;无法验证的引用会导致该答复被拒绝,并以更严格的约束重新生成。
  • WS-4:面向幻觉的评测。常规 RAG 评测衡量答复相关性。我们额外构建了引用幻觉评测:提取模型答复中每对引用(文献 ID,页码),验证其(a)真实存在,(b)实际包含该引用所支撑的内容。在(b)上的失败是隐性幻觉——引用看起来有效,实则误导。这是常规评测会漏掉的失败模式。

方法亮点

核心架构洞见:RAG 不是套了生成外壳的搜索问题,而是建立在检索基底之上的生成问题。把它当搜索做,会产出能找到正确文献、却对其作出自信而无法验证总结的系统。溯源型设计反转了这一点:生成步骤被约束为只能产出可解析回具体检索分块的论断,引用是输出的结构性组成部分,而非事后附加。

WS-1 的分块策略基准给出了一个反直觉的结果:在该语料上,版面感知分块在显著程度上超过了语义分块。我们推测这是因为该文档集本身就是为导航而设计的——章节边界是作者刻意的设计决策,尊重这些边界比让 LLM 判定段落边界更能保留连贯性。

交付物

  • 具备溯源型生成、引用验证与修订替代处理的 RAG 系统。
  • 分块策略基准报告:方法、七种策略对比结果与推荐方案依据。
  • 引用幻觉评测套件,作为可在 CI 中运行的测试件。
  • 运维指南:如何接入新文档语料、如何审核归因可疑的答复、何时下线某个语料修订。
  • 研究报告:52 条来源行,含分块策略基准的方法论。

结果

使用该系统的工程师查找文档的速度比手工浏览快 4 至 6 倍,瓶颈从"找文档"转移到了"验证答复"。投产后,引用幻觉率在 200 题评测集上为 1.4% ,而客户此前评估过的基线 RAG 实现为 11% 至 18%。客户随后将分块策略基准方法用于另外两个引入该系统的文档语料。