Synth Daily

开源蛋白质折叠模型的“神助攻”:Big Pharma

谷歌 DeepMind 的 AlphaFold 模型在蛋白质折叠预测领域取得了突破性进展,但也因其最新模型的限制性发布引发了学术界的担忧。作为回应,学者们创立了开源项目 OpenFold,该项目依靠制药公司的资助,旨在公开模型、代码和数据,确保学术研究的自由。OpenFold 目前正致力于复制 AlphaFold 3 的复杂功能,这代表了一种在产业需求与学术开放之间寻求平衡的新模式,旨在共同推动科学发现与新药研发。

AI 带来的“生存焦虑”

谷歌 DeepMind 的 AlphaFold 2 模型在预测蛋白质三维结构方面取得了巨大成功,其创造者甚至因此分享了 2024 年诺贝尔化学奖。然而,这一成功在学术界引发了复杂的感受。

早在 2018 年,哈佛大学研究员 Mohammed AlQuraishi 就描述了蛋白质折叠研究领域的学者们普遍存在的“生存焦虑”。他们担心,随着工业实验室在人工智能领域取得主导地位,学术研究可能会被边缘化。

学术界担心,“最好的研究将从此在工业实验室完成,留给学术团体的只剩下一些面包屑。”

工业实验室的研究成果通常不会完全公开,而且更关注具有直接商业价值的问题。这种模式可能会导致前沿见解被少数公司垄断,从而减缓整个领域的科学进步。这些担忧在 2024 年发布的 AlphaFold 3 上得到了印证,其模型权重最初并未公开,后续也仅在严格的非商业条件下有限开放。

蛋白质折叠:从序列到结构

蛋白质是生命活动的基础,其功能由其三维结构决定。传统上,通过 X 射线晶体学等实验方法确定蛋白质结构既昂贵又耗时。因此,通过计算预测蛋白质结构成为一个重要方向。

  • 基本原理: 蛋白质由氨基酸链组成,这条链会折叠成特定的三-维形状。
  • 挑战: 预测折叠方式极其复杂,可能性之多使得暴力搜索不可行。
  • AlphaFold 2 的突破: 该模型极大地提升了预测的准确性和便利性,虽然没有完全“解决”蛋白质折叠问题,但其预测结果在多数情况下足以用于实际应用。

AlphaFold 2 的一个关键技术是 协同进化 (coevolution),通过比较目标蛋白质与相关蛋白质的序列,推断其结构细节。

OpenFold 的诞生与目标

为了对抗学术研究被边缘化的风险,已成为哥伦比亚大学教授的 AlQuraishi 与他人共同创立了开源项目 OpenFold。该项目不仅是一项技术挑战,更是在组织和资金模式上的创新。

OpenFold 的核心目标包括:

  • 复现并开源: 逆向工程并公开发布 AlphaFold 2 的训练代码和关键数据,特别是计算成本高昂的 多序列比对 (MSA) 数据。
  • 提升性能与易用性: 使用更流行的 PyTorch 框架重写代码,使其性能更优、更易于集成。Meta 公司的 ESM-Fold 模型就部分使用了 OpenFold 的架构。
  • 深入研究模型: 分析模型本身的训练动态,例如,他们发现模型在训练初期(前 3% 的时间)就能达到最终精度的 90%。
  • 服务于产业应用: 确保制药公司可以不受限制地使用高质量的蛋白质折叠模型。

复制 AlphaFold 3:新的竞赛

当 DeepMind 宣布 AlphaFold 3 能够预测蛋白质与其他分子的相互作用,但却不完全公开模型时,学术界的愤怒达到了顶点。超过 1000 名科学家签署公开信,抗议其做法不符合科学界的透明和可用标准。

“AlphaFold 3 论文的披露程度适合在公司网站上发布,但它未能满足科学界关于可用、可扩展和透明的标准。”

这催生了复现 AlphaFold 3 的迫切需求。AlQuraishi 的团队迅速投入工作,但面临着新的挑战:

  • 任务更复杂: AlphaFold 3 涉及多种分子类型的相互作用,优化它们之间的平衡非常困难。
  • 数据量巨大: DeepMind 使用了数千万个高置信度的预测结果来增强训练数据,OpenFold 必须复现这一过程,其工作量可能是学术实验室有史以来最大的。
  • 计算成本高昂: 据估计,该项目已使用了价值约 1700 万美元的计算资源,其中大部分用于数据集的创建。

一种独特的开源合作模式

OpenFold 项目的运作依赖于一个巧妙的激励机制,其资金主要来自一个“不太可能”的盟友:制药行业

表面上看,以保护知识产权著称的制药公司似乎不应支持开源。但现实是,它们不希望在关键 AI 工具上完全依赖谷歌。

  • 对制药公司的吸引力:

    • 成本效益: 联合资助 OpenFold 比单独向 Isomorphic Labs(谷歌子公司)支付高昂的许可费更划算。
    • 参与决策: 资助方可以影响项目的研究重点。
    • 早期使用权: 可以提前在内部使用 OpenFold 的最新模型。
  • 对学术研究者的吸引力:

    • 获取资源: 获得进行大规模研究所需的资金和计算能力。
    • 实际影响力: 与行业合作,确保研究方向具有现实意义,并获得宝贵的真实世界反馈。
    • 维护开放使命: 在获得资源的同时,坚守开源原则,吸引顶尖工程人才。

通过这种合作,OpenFold 在学术自由和产业需求之间找到了一个平衡点。AlQuraishi 认为,这种模式让他既能追求“基础科学问题”,又能为科学界贡献真正开放的工具。随着大型语言模型(LLM)的日益封闭,他更加坚信了开源的重要性。