一套可复用的技术文档 RAG 分块策略基准

我们在一份参考工程语料上跑了一组可复用的分块策略基准（匿名，约 12,000 份技术规范与图纸 PDF）。七种分块策略，在 200 个人工评分的工程问题上测量检索 F1，问题均带已知基线分块。

测试的策略

策略	检索 F1	文档平均分块数	备注
1. 固定，无重叠	0.61	38	基线
2. 固定，64 令牌重叠	0.66	41	重叠有帮助
3. 固定 1024 / 128 重叠	0.64	22	此处更大的分块反而更差
4. 句界	0.67	47	相对固定提升不大
5. 段界	0.71	31	显著改善
6. 版面感知	0.78	19	最强
7. 语义（LLM 判边界）	0.67	28	表现不及预期

工程文档是结构化文档。章节边界是作者刻意的决策：规范类文档中的章节断点，标志着作者认为具有语义意义的话题切换。按这些边界切分，能以 LLM 判定的语义边界做不到的方式保留连贯性——因为 LLM 在做的事，正是逼近作者早已明确决定过的东西。

这一结论与语料相关。在结构松散的散文语料（法律意见、散文研究文章）上，作者结构较弱，语义分块可施展的空间更大；在那样的语料上我们不会期望同样结果。

基准方法论、问题构建协议与问题集特征化，均按我们标准的来源分级框架记录——框架见方法论，分块策略结果的应用见溯源型 RAG 案例研究。