我们用为另一项客户委托构建的法规文本理解评测集,跑了三种开放权重 70B 量级的模型。评测集包含 612 道题目,覆盖 NIS2、IEC 62443 与欧盟 AI 法案三类源文献,分三个子集:事实检索("第 21(2)(d) 条要求什么?")、解释("该条款是否适用于托管 SaaS 安排?")、冲突检测("这两条款是否构成相互冲突的义务?")。

设置

  • 612 道题目,三个子集平均分布。
  • 三种开放权重模型,均为 70B 参数量级,相同解码设置评估(温度 0,top-p 1.0)。
  • 每条响应三位评审:两位 LLM 评审(彼此来自不同模型家族,也与被评估系统不同家族),一位人在回路按 10% 抽样,分歧触发升级。
  • 报告总分与每个子集分数。本轮不评估引用准确性——提示词未要求引用。

结果

三种开放权重 70B 模型按子集表现的柱状图
模型总分事实检索解释冲突检测
模型 A71.4%78.2%64.9%71.0%
模型 B73.8%76.5%71.3%73.6%
模型 C70.9%84.7%56.8%71.2%

总分差距:2.9 个点。子集差距:7.9 / 14.5 / 2.6 个点。

我们的读法

如果使用场景是法规事实查询("找出并复述对应条款"),模型 C 大幅胜出。如果使用场景是法规解释("该条款是否适用此处?"),模型 C 大幅落后——事实上它在该子集上以 14.5 个点垫底。仅凭它在某个不同基准上的最高总分就为解释密集型工作流选择模型 C,将是一个错误。

这正是总分用以掩盖的失败模式。按子集报告,才使评测对真正的部署决策有用。

注意事项

  • N = 612 足以以高置信度区分 5+ 点的差距;2.9 点的总分差距落在噪声范围内,14.5 点的解释差距并不在。
  • 评测以英文版欧盟法规文本构建。同一法规在原语种源文献上的表现,本轮未测量。
  • 冲突检测子集是基线最难构建的;部分留出题目存在合理律师可能产生分歧的合理歧义。已记入公开问题清单。

方法链接

与我们其他工作沿用同一套来源分级与置信度框架——见方法论。评测集本身未公开发布;构建方法论可公开。