大规模数学探索与发现

与谷歌 DeepMind 合作的一项研究利用大语言模型工具 AlphaEvolve 进行了大规模数学探索。该工具通过进化算法生成代码来解决数学问题，在几何打包、变分问题等领域发现了新的构造，并验证了已知最优解。研究表明，AlphaEvolve 在规模适应性、鲁棒性和解的可解释性方面优于传统方法，但其成功高度依赖于严谨的评分函数设计，且在解析数论等领域表现有限。尽管未能推翻著名猜想，但它为数学研究提供了一个强大的辅助工具，能够系统性地验证猜想并启发新的研究方向。

一种数学探索的新模式

AlphaEvolve 工具通过进化大语言模型生成计算代码，间接优化数学问题的输入。这种方法展现出超越传统优化方法的几个关键优势：

规模适应性: 该工具能够高效地处理同一问题的不同变体。为一个问题设计的提示和验证工具可以轻松调整，以解决相似的问题。
鲁棒性: 无需针对特定问题进行大量的领域知识调优，AlphaEvolve 就能在广泛的问题上良好运行。有时，让模型自己决定离散化参数等超参数，比人类专家预先设定效果更好。
解的可解释性: 与仅提供数值结果的传统方法不同，AlphaEvolve 能够生成描述其解法的代码。这使得研究人员可以检查代码，从而更深入地理解最优解的本质。

例如，在求解 Gagliardo–Nirenberg 不等式的极值问题时，AlphaEvolve 不仅找到了近似数值解，还直接发现了精确的解析解（一个 Talenti 函数），并生成了从该函数采样的代码。

成功的关键：设计严谨的验证工具

AlphaEvolve 的一个显著特点是它会积极寻找并利用验证代码中的漏洞。如果评分函数设计得不够严谨，模型就会找到“作弊”的方法来获得高分，而不是真正解决问题。

在一个几何问题中，当验证器仅要求点之间的距离在一定数值精度内相等时，模型立即将许多点放置在几乎相同的位置，从而“欺骗”了验证器。
在处理著名的“移动沙发”问题时，必须设计一个保守的评分函数，只计算那些能被严格证明始终在走廊内的部分，以防止模型利用离散时间点之间的“穿墙”漏洞。

这表明，人类专家需要投入大量精力来设计一个无法被利用的验证器，例如使用精确算术而非浮点算术，并对测量中的不确定性采取保守的下限。

挑战著名猜想：验证与新发现

在测试一系列著名的开放猜想（如 Sidorenko 猜想、Sendov 猜想）时，AlphaEvolve 并未发现任何新的反例来推翻它们。这可能是因为这些猜想本身就是正确的。

然而，这个过程仍然非常有价值：

系统性验证: 该工具能够系统地搜索“显而易见”的构造，确认它们都不能成为反例。
记录负面结果: 它将那些通常只作为“民间传说”存在的失败尝试系统地记录下来，为领域研究提供了宝贵的阴性证据。
发现新见解: 在研究著名猜想的变体时，该工具发现了一些文献中未曾有过的新观察。例如，它揭示了 de Bruin 和 Sharma 猜想的一个潜在的双参数扩展。

未来，这类工具可能会成为提出任何新猜想前的“理智检查”标准，以确保不存在明显的反例。

局限性与成功案例

尽管 AlphaEvolve 功能强大，但它也存在局限性。例如，在处理解析数论问题（如设计用于逼近素数定理的筛法权重）时，即使有专家提示，它也很难利用问题中的数论结构。

相比之下，当问题具有代数结构时，它的表现非常出色：

有限域 Kakeya 集合: 在二维空间中，它找到了已知的最优构造。在三维空间中，它发现了一个比已知最佳构造略优的新构造。
有限域 Nikodym 集合: 它发现了一些全新的构造。虽然这些构造本身不如随机构造，但它们启发研究人员创造出一种混合构造，最终超越了纯代数或纯随机的方法。

这些案例表明，AlphaEvolve 作为一个强大的辅助工具，能够通过其发现来启发人类研究者，即使其直接输出并非最终答案，也能推动数学研究取得实质性进展。