实验笔记 · RAG · 2026-04-19
一套可复用的技术文档 RAG 分块策略基准
我们在一份参考工程语料上跑了一组可复用的分块策略基准(匿名,约 12,000 份技术规范与图纸 PDF)。七种分块策略,在 200 个人工评分的工程问题上测量检索 F1,问题均带已知基线分块。
测试的策略
- 固定 512 令牌窗口,无重叠。
- 固定 512 令牌窗口,64 令牌重叠。
- 固定 1024 令牌窗口,128 令牌重叠。
- 句界分块,目标 512 令牌。
- 段界分块,目标 512 令牌。
- 版面感知分块(按从 PDF 结构中识别出的文档章节边界切分)。
- 语义分块(由 LLM 判定段落连贯边界,目标 512 令牌)。
结果
| 策略 | 检索 F1 | 文档平均分块数 | 备注 |
|---|---|---|---|
| 1. 固定,无重叠 | 0.61 | 38 | 基线 |
| 2. 固定,64 令牌重叠 | 0.66 | 41 | 重叠有帮助 |
| 3. 固定 1024 / 128 重叠 | 0.64 | 22 | 此处更大的分块反而更差 |
| 4. 句界 | 0.67 | 47 | 相对固定提升不大 |
| 5. 段界 | 0.71 | 31 | 显著改善 |
| 6. 版面感知 | 0.78 | 19 | 最强 |
| 7. 语义(LLM 判边界) | 0.67 | 28 | 表现不及预期 |
为什么版面感知胜出(我们的假设)
工程文档是结构化文档。章节边界是作者刻意的决策:规范类文档中的章节断点,标志着作者认为具有语义意义的话题切换。按这些边界切分,能以 LLM 判定的语义边界做不到的方式保留连贯性——因为 LLM 在做的事,正是逼近作者早已明确决定过的东西。
这一结论与语料相关。在结构松散的散文语料(法律意见、散文研究文章)上,作者结构较弱,语义分块可施展的空间更大;在那样的语料上我们不会期望同样结果。
可借鉴之处
- 方法论可借鉴,但不是我们具体的 F1 数字——那些是语料特定的。
- "文档平均分块数"这一列在运维上很重要。版面感知产出的分块数仅为固定窗口策略的一半,这对检索成本与重排序计算量都有影响。
- 在真实语料上测试多种策略、而非从通用指南里挑一种的决策。我们的次优是段界分块;在另一种语料上,那也许就是最优。
注意事项
- N = 200 题;F1 差异大于 0.04 的我们有约 85% 把握,更小的差异把握更低。
- 检索 F1 衡量是否检索到正确分块,并不衡量下游生成是否产出了正确答复。按我们的经验,跨策略的生成质量差异小于检索差异,但本次未测量。
- 版面感知抽取器使用了部分 PDF 不携带的结构元数据。无元数据的文档会回退到段界分块;上表中的 F1 是混合表现。
方法链接
基准方法论、问题构建协议与问题集特征化,均按我们标准的来源分级框架记录——框架见方法论,分块策略结果的应用见溯源型 RAG 案例研究。