Synth Daily

AI创意背后的隐藏秘诀

一项新研究表明,AI 图像生成工具(如 DALL·E)的创造力并非源于某种高级智能,而是其技术架构中固有缺陷的直接产物。这些模型在生成图像时,过分关注局部的像素块而非整体画面,这种“短视”迫使它们进行创新组合。这一发现不仅揭示了 AI 创造力的来源,也为我们理解人类自身的创造力可能根植于对世界的不完整认知提供了新视角。

创造力的悖论

长期以来,研究人员对一个现象感到困惑:扩散模型(Diffusion Models)是 DALL·E、Stable Diffusion 等工具的技术基础,它们的设计初衷是精确复制训练数据中的图像。然而,它们在实践中却表现出惊人的创造力,能够融合不同元素,生成全新的、有意义的图像。

“如果它们完美运行,它们应该只会记忆,”巴黎高等师范学院的 AI 研究员 Giulio Biroli 说。“但它们没有——它们实际上能够产生新的样本。”

这个悖论的核心问题是:如果模型只是在“重新组装”被分解成像素噪点的图像,新颖性从何而来?

创造力的根源:技术缺陷

两位物理学家 Mason Kamb 和 Surya Ganguli 提出了一个惊人的论点:AI 的创造力恰恰来自于其图像生成过程中的技术缺陷

早期的 AI 图像常常出现一些奇怪的错误,比如画出有六根手指的手。这让研究者联想到了生物学中的“形态发生”(morphogenesis)过程,即细胞在没有全局蓝图的情况下,仅通过与邻近细胞的互动来局部地自我组织成器官和肢体。

研究人员发现,扩散模型在工作中也遵循类似的“自下而上”的局部规则,主要体现在两个技术捷径上:

  • 局部性 (Locality): 模型在处理图像时,一次只关注一小块(patch)像素,而不考虑这一小块在最终成品中的位置。
  • 平移等变性 (Translational Equivariance): 这是一个确保图像结构连贯性的规则。如果输入图像移动了几个像素,输出图像也会做同样调整。

过去,这些特性被认为是模型的局限,是阻碍它们完美复制图像的障碍。但新的研究表明,它们恰恰是创造力的引擎。

一个决定性的实验

为了验证他们的假设,Kamb 和 Ganguli 设计了一个名为 ELS 机(等变局部得分机)的纯数学模型。这个模型本身并未经过任何图像训练,它唯一的任务就是严格遵循局部性等变性这两个原则来重建图像。

他们将同一组由图像转换成的数字噪点,分别输入给 ELS 机和多个强大的、训练有素的扩散模型。

结果令人震惊:

  • ELS 机生成的图像与那些复杂扩散模型生成的图像,平均匹配度高达 90%
  • 这一结果表明,所谓的创造力并非来自复杂的学习,而是施加“局部性”限制后完全自然产生的

模型的“短视”——即强迫它只关注局部像素块而忽略全局——正是驱动它进行创新的机制。AI 之所以会画出多余的手指,也是因为它过度专注于生成局部的手指像素块,而缺乏对“一只手通常有五根手指”的整体概念。

对人类创造力的新思考

这项研究首次以数学方式证明,AI 的创造力可以被看作是其工作流程的一种副产品,并且可以被精确预测。这为我们理解创造力本身打开了一扇新的窗户。

“人类和 AI 的创造力可能没有那么不同,”机器学习研究员 Benjamin Hoover 评论道。“我们根据自己的经历、梦想、所见所闻来组合事物。AI 也在做同样的事情,它只是在组合它所见过的数据和被下达的指令。”

从这个角度看,无论是人类还是人工智能,创造力或许都根植于对世界的一种不完整的理解。当我们试图用有限的知识填补认知空白时,偶尔就会创造出既新颖又有价值的东西——而这,或许就是我们所说的“创造力”。