Thinking Machines Lab发力提升AI模型稳定性

Thinking Machines Lab 正在攻克大型模型输出的不确定性问题:研究指出GPU 内核在推理阶段的拼接与调度是导致响应随机性的关键,通过精确控制这层“编排”可以使模型生成可复现的响应。这一改进有助于提升企业与科研应用的可靠性,并能让强化学习训练更稳定,但能否落地为产品、以及在公开研究与商业化间的取舍,仍待观察。

背景概览

    • Mira Murati 创办的 Thinking Machines Lab 汇聚了多名前 OpenAI 研究者,并获得大额种子资金。
    • 实验室首次公开的研究目标是解决LLM 推理中的不确定性(nondeterminism),把“非确定性”视为可被工程化解决的问题。

问题与成因

    • 常见现象:对同一问题多次询问,当前大型模型常给出不同答案(响应不稳定)。
    • 研究结论:根本原因并非模型本身随机,而是 GPU 内核(在 Nvidia 芯片上运行的小程序)在推理时如何被拼接与调度,即“内核编排”层引入了不可控的变动。

“根本原因在于 GPU 内核在推理处理中的拼接方式;通过精细控制这层编排,可以使模型更具确定性。”

提出的解决思路(要点)

    • 控制 GPU 内核的编排,使每次推理过程中底层执行路径可复现。
    • 改变不是从模型结构入手,而是优化推理执行层(工程与系统层面的可控性)。
    • 目标不仅是输出一致性,还包括在强化学习(RL)环节减少训练数据噪声。

影响与意义

    • 对企业与科研:更可预测、更可审计的模型响应利于生产部署与科学验证。
    • 对强化学习:一致的响应能降低奖励信号的噪声,从而让 RL 训练更加“平滑”与稳定。

“更一致的模型响应可以让整个强化学习过程更顺畅。”

    • 对研究文化:实验室承诺频繁发布博客与代码,倾向于更开放的研究共享,但是否长久保持尚不确定。

现实不确定性与挑战

    • 技术难题:在各种硬件、驱动和高并发场景下,要完全消除非确定性仍有挑战。
    • 产品化与落地:Murati 表示会发布首款面向研究者与初创公司的产品,但具体实现方式、是否采用该研究技术、以及能否满足商业需求尚不明朗。
    • 开放性承诺:实验室声称会公开研究成果,但随着团队规模与商业压力,未来做法仍待观察。
    • 估值与期待:要把研究成果转化为可销售的产品并支撑高估值,仍需时间与证明。

简要结论

    • 问题定位清晰且可工程化:把“非确定性”归因于推理层的内核编排,给出了明确的干预方向。
    • 潜在价值显著:对企业可靠性、科研复现性和强化学习训练都有实用意义。
    • 但尚未证明能完全解决或成功商业化:观察后续技术细节、代码开源与首款产品发布,是评估该路线成败的关键。