AI加持,蛋白质设计新纪元

科学家们正利用人工智能工具,如 RFDiffusionAlphaFoldProteinMPNN,从零开始设计自然界中从未见过的全新蛋白质。这个过程首先通过 diffusion 模型“幻觉”出一种可能的蛋白质三维结构,然后用另一个模型预测能形成该结构的氨基酸序列,最后再用第三个模型验证该序列是否能准确折叠成预想的形状。这一革命性方法极大地加速了药物开发、材料科学和农业等领域的创新,尽管在预测蛋白质的动态行为和复杂功能方面仍存在挑战,但其潜力巨大,预示着一个由 AI 驱动的生物学新时代的到来。

为什么要设计自然界没有的蛋白质?

自然进化虽然强大,但并未解决人类面临的所有问题。通过从头设计蛋白质,我们可以针对性地创造解决方案。

    • 环境问题: 设计能够分解塑料等非生物降解材料的酶。
    • 医疗健康: 创造全新的蛋白质药物,用于对抗现有疗法难以处理的病原体,例如设计一种可以阻断乙肝病毒复制的蛋白质。
    • 材料科学: 制造具有特定性能的新材料,比如比天然蚕丝更强韧或更有弹性的蛋白质纤维。
    • 工业与农业: 优化发酵过程,或设计更高效的固氮、光合作用蛋白质,以提高作物产量或创造新的生物燃料。

我们可以创造一个蛋白质来充当治疗药物,完全凭空想象,以前从未见过类似的东西,那将非常有用。

AI 设计蛋白质的三步循环

AI 设计蛋白质的核心是一个“设计、创造、验证”的循环,主要依赖于三个关键的 AI 模型协同工作。

  1. 第一步:用 RFDiffusion “幻觉”出结构

    这个过程类似于 DALL-E 或 Midjourney 等图像生成模型。它们从充满“噪音”的随机数据开始,逐步去噪,最终生成清晰的图像。RFDiffusion 做的类似,但对象是蛋白质。它从随机的原子坐标开始,逐步调整,最终“幻觉”出一个全新的、可能稳定的蛋白质三维骨架结构。

  2. 第二步:用 ProteinMPNN 找到氨基酸序列

    有了蛋白质的骨架结构,我们还需要知道用哪种氨基酸序列才能把它“建造”出来。ProteinMPNN 的作用正好与 AlphaFold 相反:你给它一个三维结构,它会反向推算出最有可能折叠成该结构的氨基酸序列。

  3. 第三步:用 AlphaFold 验证折叠

    这是关键的质检环节。我们把上一步得到的氨基酸序列输入 AlphaFold,让它预测这个序列在现实中会折叠成什么样子。如果 AlphaFold 预测的结构与我们最初用 RFDiffusion 设计的结构高度一致,那么这个设计方案就通过了初步验证。如果不一致,就说明这个序列很可能无法形成我们想要的形状,需要被淘汰。

这种 AI 驱动的循环极大地提高了效率。过去,科学家可能需要进行数十万次实验筛选,才能找到一个有效的分子。现在,我们可以在计算机上筛选,最终可能只需要在实验室测试几十个候选方案,其中就可能有几个能成功。这在五年前是无法想象的。

AlphaFold 的革命性突破

在 AlphaFold 出现之前,从氨基酸序列预测蛋白质的三维结构是生物学领域最大的挑战之一。科学家们依赖物理模型或复杂的统计方法,但准确率长期徘徊在 50% 以下。

    • CASP 竞赛: 这是一个始于 1994 年的全球性竞赛,旨在评估蛋白质结构预测的水平。各团队会收到未知结构的蛋白质序列,并提交他们的预测结果。
    • AlphaFold2 的登场: 在 2020 年的竞赛中,DeepMind 的 AlphaFold2 横空出世。它通过在包含数十万个已知蛋白质结构的数据库上进行训练,学会了从序列到结构的直接映射关系。
    • 惊人的准确率: AlphaFold2 的平均预测准确率达到了 90% 左右,这是一个颠覆性的飞跃,彻底改变了结构生物学领域。

当前的局限与未来的潜力

尽管 AI 工具已经非常强大,但它们并非万能。目前仍存在一些关键的局限性:

    • 无法预测动态: 蛋白质在现实中是不断运动、振动和变化的。目前的模型主要预测其静态结构,而无法捕捉这种动态行为。
    • 无法预测功能: 我们还不能仅凭一个蛋白质的结构就准确预测它的所有生物学功能。
    • 无法预测相互作用: 蛋白质如何与其他分子(如金属离子)结合,或者它在细胞膜等复杂环境中的行为,仍然难以预测。

尽管存在这些挑战,AI 蛋白质设计的未来依然充满希望。

    • 蛋白质乐高: 科学家已经开始设计能够自组装成特定形状的蛋白质,如纳米管、环状或笼状结构,这些可用于构建微型支架或输送系统。
    • 诊断工具: 可以设计出对特定环境(如温度或酸碱度)或特定分子敏感的蛋白质传感器,用于疾病诊断。
    • 基础研究: 这些工具本身也成为探索生命奥秘的强大武器,帮助科学家更好地理解疾病机理和生物过程。

这场变革的起跑线基本就在 2022 年。未来,我们将看到掌握这些计算工具的结构生物学家与特定领域的专家(如心脏病学、传染病或农业专家)紧密合作。这些跨学科团队将共同完成真正不可思议的事情。