SDD | Kada's Notes

最近将 Token 翻译成词元之后，又有个词突然变热且暂时没有合适的翻译：Harness Engineering。不是新模型，不是新框架，甚至不是新工具——就是这么一个词，突然开始出现在各种技术讨论里。它从哪来的？它在说什么？为什么现在火起来？我们来拆解三篇相关的重要文章，最后讲讲实践中如何落地。先说这个词本身 Harness，字面意思是"缰绳"或"挽具"。放进 AI 工程的语境：Harness 是把 agent 纳入工程系统的那套控制结构——让 agent 的工作变得可约束、可验证、可回放，而不是每次运气好就成功、运气不好就不知道哪里出了问题。它不是某一个工具，也不是某一个 prompt 技巧。它是一套工程思路：当代码主要由 agent 生成，工程师的工作重心从"写代码"转向"设计让 agent 能够有效工作的环境"。听起来很虚？下面看具体的。第一篇：OpenAI，2 月 11 日这个词真正开始传播，是因为 OpenAI 在 2 月 11 日发了一篇工程博客，标题叫《Harness Engineering: Leveraging Codex in an Agent-First World》。文章里有一组数字，很多人看完沉默了： 5 个月。3 名工程师。约 100 万行代码。约 1,500 个 PR，平均每人每天 3.5 个。更关键的是：从第一个 commit 开始，仓库里没有一行代码是人手写的。连最初的 AGENTS.md——用来告诉 agent 怎么在这个项目里工作的文件——都是 agent 自己写的。但这不是 vibe coding。 OpenAI 团队在文章里说了一句很关键的话：早期进展比预期慢——不是因为 Codex 没有能力，而是因为环境没有定义好。 ...