大语言模型正在变成大编程模型

通过分析 Arena AI 的 Text Arena 和 Code Arena 数据可以发现，大语言模型近一年的发展趋势出现明显分化。语言能力的提升已变得非常缓慢，而编程能力则在飞速进步。这主要是因为厂商将资源更多地投入到短期内更容易变现的编程应用场景。尽管模型的语言能力并未倒退，但其有限的改善幅度让人们开始思考，大语言模型是否会最终演变为“大编程模型”。

数据来源：相对可靠的用户体验指标

要衡量模型的真实能力，需要一个相对难以作弊的基准测试。Arena AI 正是这样一个平台。

运作方式： 用户输入一个指令，平台会将其同时发送给两个匿名的模型。用户根据返回的两个结果，选择自己更喜欢的一个。
评分机制： Arena AI 团队收集海量用户的选择数据，通过统计方法为每个模型计算出得分和排名。
核心优势： 这种基于数万用户真实选择的评分方式，被认为是目前最接近用户实际体验的指标。

语言能力停滞，编程能力狂飙

如果我们将 Text Arena 的得分看作语言能力指标，将 Code Arena 的得分看作编程能力指标，结论非常清晰：厂商更愿意投入资源提升模型的编程能力。

数据对比： 以半年为周期进行统计，编程能力得分的提升幅度几乎是语言能力的两倍。虽然语言能力仍在缓慢提升（约 1.82%），但这种微小变化对实际体验的改善微乎其微。
趋势分析： 从按天分布的图表看，代表编程能力的曲线（橙线）比代表语言能力的曲线（蓝线）要陡峭得多。这说明在过去近一年里，编程分涨得更多，语言分只是略涨，但并未出现倒退。

在我看来，如果说 GPT-2 到 GPT-3.5 在语言能力上的进步是从 30 分到 60 分，那么现在的模型可能是从 60 分提升到了 70 分。但 60 到 70 分的体验变化，远不如当初 55 分到 60 分那一步来得震撼。

为什么编程能力更受青睐？

厂商将资源重心从语言能力转向编程能力，背后的主要驱动力是商业变现。

明确的变现潜力： 编程是短期内投资回报率最高的场景之一。大量工程师愿意为能提升效率的工具付费，催生了许多提供 API 服务的公司。
企业端的需求： 大模型厂商向企业客户推销“AI 降本增效”的理念，而编程和开发是其中最直接、最容易量化的部分。企业内部甚至设立了“token 消耗天梯榜”来鼓励使用。
故事的简单性： 相较于复杂的 Agent 能力，编程是一个足够简单且有效的故事。在需要向市场和投资者证明其价值的当下，这是一个现实的选择。

未来的趋势尚不明朗，但编程能力的优先级在短期内似乎难以动摇。大语言模型是否会彻底变成“大编程模型”，时间会给出更清晰的答案。