实验笔记 — Zhianrui 智安睿

实验笔记标题

2026-04-28 · 模型评测

三种开放权重 70B 模型在法规文本理解上的对比评测

总分聚集在 4 分以内；按子集看，差距最高可达 28 分。按失败模式挑模型，别按排行榜。

2026-04-19 · RAG

一套可复用的技术文档 RAG 分块策略基准

在我们的参考工程语料上，版面感知分块在检索 F1 上比语义分块高 11 个点。原因何在，可借鉴什么。

2026-04-12 · 模型评测

四种受约束生成后端的架构强制对比

当输出必须符合某个架构时，约束强制库比模型本身更重要。三种后端可靠，一种不行。