谷歌通过一种新型的“类收购”交易,支付了24亿美元来获取Windsurf公司的顶尖人才和技术许可,此举旨在规避反垄断审查。与通常情况下被收购公司剩余部分陷入困境不同,Windsurf的剩余业务和员工被另一家AI初创公司Cognition迅速收购。其根本原因在于,Windsurf的集成开发环境(IDE)能提供独特且极为细致的开发者行为数据。在AI公司已耗尽公开互联网数据后,这种数据对于AI模型在后训练阶段进行微调至关重要,成为了一种极其宝贵的资源。
一种新型的“类收购”交易
近年来,在人工智能热潮和反垄断限制的推动下,硅谷出现了一种新型交易。这种交易被称为“打了类固醇的收购”(acquihires on steroids)。
由于反垄断审查日益严格,大型科技公司无法再像以前那样轻易进行大规模收购。因此,它们采取了一种新策略:
- 高价聘请目标公司的核心人才。
- 付费许可其关键技术。
- 留下公司的剩余业务和员工自生自灭。
从技术上讲,这种方式并非“收购”整个公司,因此可以规避相应的反垄断法规。
Windsurf的不同结局
在以往的案例中,如Inflection、Character.ai和Scale AI,这种交易模式都导致被收购公司的剩余部分陷入困境。然而,Windsurf的结局却截然不同。
在谷歌完成交易后,另一家AI初创公司Cognition迅速收购了Windsurf的剩余资产。这背后的原因与生成式AI成功的关键要素之一有关:数据。
AI成功的第三要素:数据
要成功发展生成式AI,通常需要三个核心要素:
- AI人才: 这是谷歌愿意为Windsurf少数核心成员支付巨款的主要原因。
- 基础设施: 包括GPU、数据中心和大量电力。
- 数据: 这是最关键但又最少被提及的要素。
数据对于AI模型的开发至关重要。随着AI公司已经将整个互联网的数据挖掘殆尽,寻找新的、独特的数据源成为了当务之急。
“所有这些公司,在耗尽了互联网上的所有数据之后,已经没有第二个互联网可以去挖掘了。它们都在寻找替代数据源。”
IDE:数据的金矿
Windsurf的主要产品是集成开发环境(IDE)。IDE是开发者用来编写软件的工具,它能记录下开发者工作的每一个细节。
Cognition的CEO在宣布收购时明确表示,Windsurf的IDE是他们获得的最重要资产。他认为,将IDE与Cognition的AI软件工程助手Devin结合,将带来“巨大的释放”。
麻省理工学院的计算学杰出教授Armando Solar-Lezama指出,IDE之所以在AI领域如此有价值,是因为它们能提供关于人类开发者如何编写、修复和更新代码的海量、独特且细致的数据流。
预训练与后训练的区别
构建AI模型主要分为两个阶段,而IDE的数据在第二阶段尤为关键:
第一阶段:预训练 (Pre-training) 在这个阶段,公司会抓取互联网上的所有公开数据来训练模型,让其对世界有一个基本的理解。如今,这已经成为AI竞赛的“入场券”,难以在此形成差异化优势。
第二阶段:后训练 (Post-training) 这个阶段旨在微调(fine-tune)模型,修正其不良行为,并赋予其独特的风格。这正是不同公司形成竞争优势的地方,需要使用独特的专有数据。
“IDE提供的数据粒度是其他任何方式都无法比拟的。”
通过安装在开发者电脑上的IDE,Windsurf这样的公司可以观察到开发者的每一次按键、每一次代码运行、如何运行以及如何调试。这种对开发者实际工作流程的深入洞察,提供了AI模型提供商无法直接获得的丰富数据,使其成为AI微调阶段无可替代的宝贵资源。