我们在一份参考工程语料上跑了一组可复用的分块策略基准(匿名,约 12,000 份技术规范与图纸 PDF)。七种分块策略,在 200 个人工评分的工程问题上测量检索 F1,问题均带已知基线分块。

测试的策略

  1. 固定 512 令牌窗口,无重叠。
  2. 固定 512 令牌窗口,64 令牌重叠。
  3. 固定 1024 令牌窗口,128 令牌重叠。
  4. 句界分块,目标 512 令牌。
  5. 段界分块,目标 512 令牌。
  6. 版面感知分块(按从 PDF 结构中识别出的文档章节边界切分)。
  7. 语义分块(由 LLM 判定段落连贯边界,目标 512 令牌)。

结果

七种分块策略的检索 F1 横向柱状图,版面感知以 0.78 胜出
策略检索 F1文档平均分块数备注
1. 固定,无重叠0.6138基线
2. 固定,64 令牌重叠0.6641重叠有帮助
3. 固定 1024 / 128 重叠0.6422此处更大的分块反而更差
4. 句界0.6747相对固定提升不大
5. 段界0.7131显著改善
6. 版面感知0.7819最强
7. 语义(LLM 判边界)0.6728表现不及预期

为什么版面感知胜出(我们的假设)

工程文档是结构化文档。章节边界是作者刻意的决策:规范类文档中的章节断点,标志着作者认为具有语义意义的话题切换。按这些边界切分,能以 LLM 判定的语义边界做不到的方式保留连贯性——因为 LLM 在做的事,正是逼近作者早已明确决定过的东西。

这一结论与语料相关。在结构松散的散文语料(法律意见、散文研究文章)上,作者结构较弱,语义分块可施展的空间更大;在那样的语料上我们不会期望同样结果。

可借鉴之处

  • 方法论可借鉴,但不是我们具体的 F1 数字——那些是语料特定的。
  • "文档平均分块数"这一列在运维上很重要。版面感知产出的分块数仅为固定窗口策略的一半,这对检索成本与重排序计算量都有影响。
  • 在真实语料上测试多种策略、而非从通用指南里挑一种的决策。我们的次优是段界分块;在另一种语料上,那也许就是最优。

注意事项

  • N = 200 题;F1 差异大于 0.04 的我们有约 85% 把握,更小的差异把握更低。
  • 检索 F1 衡量是否检索到正确分块,并不衡量下游生成是否产出了正确答复。按我们的经验,跨策略的生成质量差异小于检索差异,但本次未测量。
  • 版面感知抽取器使用了部分 PDF 不携带的结构元数据。无元数据的文档会回退到段界分块;上表中的 F1 是混合表现。

方法链接

基准方法论、问题构建协议与问题集特征化,均按我们标准的来源分级框架记录——框架见方法论,分块策略结果的应用见溯源型 RAG 案例研究