CTO 们一致认为：认知债务就是新的技术债务

工程领导者们普遍认为，尽管行业正在积极拥抱 AI，但成熟的策略尚未形成。企业已从“不计成本投入 AI”的阶段，转向关注投资回报率，然而衡量标准却付之阙如。AI 加速了编码，却也带来了代码评审、维护和“认知债务”等新瓶颈。这不再是单纯的技术问题，而是一场涉及管理、流程和组织结构的全面重塑，核心挑战在于如何平衡 AI 带来的效率与随之而来的新风险。

从“随便花钱”到追问回报

大约两年前，指令很简单：不问缘由，投资 AI。那个时代已经结束。取而代之的是一场更艰难的对话，许多公司开始向首席财务官（CFO）解释 AI 的价值。问题从“你是否在使用 AI？”变成了“你从中得到了什么？”。

挑战在于，投资回报率（ROI）中的“投资”（I）部分完全无法管理。过去，工程能力意味着人头数，财务可以建模。现在，它意味着 tokens，但没人能控制一个工程师每天会消耗多少 token。

CFO 签了合同后，就无法控制实际的投资额。如果你无法告诉我投资额，那么预测回报又有什么意义？

许多团队都撞上了同一堵墙：公司购买了工具、签订了合同，却发现内部没有财务模型来管理后续的成本。这种情况与云计算早期类似，成本是虚的，用量是未定义的，衡量指标也尚未发明。

更明智的做法： 与其现在强求 ROI，不如先建立一个基准线。
更务实的做法： 停止无节制的使用，开始标准化工具。这并非要求减少使用 AI，而是从“使用所有工具”转向“更聪明地使用相同的工具”。

招聘标准重塑：我们到底在招什么样的人？

关于招聘的讨论揭示了在场者对工程师角色的不同看法。

一位参与者明确区分了两种角色：

发布产品的 AI 工程师： 思考产品是什么，而不仅仅是它如何工作。他们更像是产品领导者。
负责系统设计的设计师： 仍然需要考虑可用性、预算和架构决策，这些是 AI 无法替代的。

面试流程也正在被重新思考。一些团队仍坚持考察系统性思维和分解模糊问题的能力。而另一些团队则已将面试重点转向 代码评审，因为这才是工程师现在实际在做的工作。

我改变了我们的面试流程，专注于代码评审，因为这才是我们真正在做的事情。而代码实现现在由 AI 辅助完成。

如果你的团队 生成代码的速度超过了评审代码的速度，你就遇到了瓶颈。约束在于人的判断力，而不是产出。

团队反应不一：这是管理问题，不是技术问题

没有哪个团队是全体热情或全体抵触的，现实情况更为复杂。

一位领导者提到，一些晚接受 AI 的员工在体验到效率提升后，不得不重新思考自己的工作方式。另一位则描述了一个更复杂的现象：一名高效使用 AI 的工程师，同时却对 AI 生成的任何内容都抱有深深的怀疑。

对“AI 让人停止思考”的担忧不止一次被提及。对此，一个有力的反驳是：这是一个管理问题，不是技术问题。工具让懒惰变得容易，领导者的工作就是让懒惰变得不值得。

你可以选择用 AI 快速写出又长又不太好的东西，也可以用它来迭代，真正把它打磨成简短精炼的内容。我们现在都能写出很长的信，但我们是否应该这样做，则是另一个问题。

一家公司的匿名调查发现，90%的工程师希望使用 AI。令人惊讶的是随之而来的问题：关于绩效管理、晋升标准，以及当任何人都能生成代码时，个人贡献如何被认可。AI 的应用速度已经超过了配套管理体系的更新速度。

“认知债务”：没人愿意谈论的新问题

AI 让编写代码变得廉价，但这并不意味着发布和维护代码也同样廉价。一位与会者简洁地指出：认知债务是新的技术债务。

在场的所有人都看到了同样的模式：团队以两年前不可能实现的速度增加功能，现在却要应对随之而来的维护开销。

本就难以理解的遗留代码现在变得更难，因为写代码的人追求的是速度，而不是严谨。
一些本应是临时性的内部工具，因为某人用三个提示就把它发布了，结果变成了永久性的负担。

那些流程，比如“构建还是购买”、“这是否值得长期维护”，它们的存在是有原因的。但如果你一个下午就能搞定，就很容易跳过它们。问题会在以后出现。

一个应对策略是：代码可以随便写，但写了不代表就能发布。代码是廉价的，但发布它不是。当管理层为每一个提交的代码请求（PR）庆祝时，在团队中维持这种区别变得异常困难。

谁应该提交代码？一场关于职责边界的辩论

如果 AI 让任何人都能轻松编写代码，那么产品经理（PM）是否应该提交代码请求（PR）？

房间里的意见出现了分歧。分歧点不在于技术可行性，而在于这是否是正确的目标。

一位参与者强烈反对将“非工程师发布代码到生产环境”视为一种胜利。

如果你实际上是让工程师变成代码评审监督员，保护公司免受他们没有编写的 PR 的影响，而 PM 却因发布功能而获得赞誉，那么请关注一下你工程师的心理健康。

其他人则更为务实。让非工程师在风险较低的小任务上做出贡献，可以缩短所有人的反馈循环。例如，设计师可以编写符合规范的组件，而无需等待工程师。只要有正确的护栏，这就有价值。

最终，一个更结构性的问题没有得到明确答案：如果任何人都可以发布代码，那么由谁来把所有东西整合在一起？许多人认为，唯一现实的答案是 彻底的团队自治：由三到五人的小团队对自己的决策负责，管理层的角色从把关转为协调。

代码评审成为新瓶颈，AI 或能解决

问题不在于团队无法生成代码，而在于他们无法足够快地评审代码。人工评审现在是瓶颈。解决方案不是增加更多评审员，而是更智能地进行分类。

一个团队正在尝试对 PR 进行 置信度评分：利用 AI 评估变更的风险，只将真正需要人工审查的部分呈现出来。一个 15,000 行的 PR，如果只有三行需要人工审查，那么它就只是一个三行代码的审查问题。

我真的认为你可以有一个一万五千行的 PR，然后说，我需要一个人来审查这三行。其他一切都没问题。我还不知道怎么做，但我知道这必须发生。

这里的关键是建立信任。我们不读汇编代码，因为我们信任编译器。问题在于，我们能否构建足够的验证基础设施（如功能开关、可观测性、验收测试等），以便与 AI 生成的代码建立类似的信任关系。

一个实用的建议是：现在就投资评估套件（evals），而不是以后。构建 AI 功能的成本不高，验证的成本才高。

供应商依赖：一个隐藏的风险点

当 Anthropic 或 OpenAI 提价、宕机或被颠覆时，会发生什么？

一位参与者直言，她的整个公司在 Anthropic 上存在单点故障。工程团队理解单点故障的风险，但市场和财务部门那些在 Claude 之上构建工具的人却不理解。

这么多工程之外的团队在构建东西，我不认为他们真正理解底层是什么。如果突然之间我们无法进行推理，市场部会怎样？财务部会怎样？他们会打电话给工程部。

尽管市场竞争和开源模型的发展可能会限制供应商的定价权，但真正的锁定风险不在于模型本身，而在于围绕它构建的一切：技能、工具和内部工作流程。

实用建议：在你的团队被锁定到特定的产品界面之前，现在就构建内部的 UI 包装器，使其可以调用通用的模型 API。这样，你就可以在不重建团队依赖的界面的情况下，更换底层的模型。