内部研究空间
简短的实验记录与模型评测。打磨标准低于"观察"——更即时,更"我们试了什么、发生了什么"。同一套来源分级与置信度框架。
2026-04-28 · 模型评测
总分聚集在 4 分以内;按子集看,差距最高可达 28 分。按失败模式挑模型,别按排行榜。
2026-04-19 · RAG
在我们的参考工程语料上,版面感知分块在检索 F1 上比语义分块高 11 个点。原因何在,可借鉴什么。
2026-04-12 · 模型评测
当输出必须符合某个架构时,约束强制库比模型本身更重要。三种后端可靠,一种不行。