文章
观察
研究者执笔的技术文章。不是技巧,不是趋势——方法论反思与合规解读。
为什么智能体系统比人类更需要溯源
缺乏溯源纪律的人类研究者会产出糟糕的研究。缺乏溯源纪律的智能体 LLM 系统会以规模化的方式产出自信的幻觉。
构建在生产环境中站得住脚的评测体系
基准分数是模型在静态数据集上取得的成绩。评测体系是你用以判断新模型能否上线的依据。两者不是同一回事。
RAG 不是搜索——把它当搜索做,正是大多数实现失败的原因
检索增强生成看起来像"搜索多一步"。它不是。它是"建立在检索基底之上的生成"。架构含义在每一层都不一样。
为什么溯源是一种交付实践,而非交付物
溯源不是报告末尾的一个章节。它是一种从第一天起就塑造研究方式的实践。
我们内部使用的 LLM 增强研究工作流
大多数咨询公司把内部 AI 使用藏在"人类执笔"的帘子后面。我们认为这块帘子带来的伤害多于收益——对客户、对行业讨论、对我们自己的工作都是如此。
将 NIS2 作为工程规范来解读
大多数合规指南将 NIS2 视为清单。我们将其视为工程规范——由此产生的设计要求截然不同。
应用研究中远程外包的代价,以及替代方案
外包的失败模式不是成本——而是实验台与客户之间的翻译层。