蒸馏技术让AI模型更小更省钱

近期,中国公司 DeepSeek 因其聊天机器人被指控使用“知识蒸馏”技术而引发关注。然而,知识蒸馏并非秘密手段,而是一种在人工智能领域广泛应用的核心技术。它旨在将一个大型、复杂的“教师”模型的知识,高效地传递给一个更小、更精简的“学生”模型。这种方法由谷歌研究人员在 2015 年提出,其最终目标是创造出性能相近但运行成本更低、效率更高的 AI 模型,如今已成为行业标准。

一场由“蒸馏”引发的误解

当 DeepSeek 公司发布其高效能聊天机器人时,一些人指责它通过“蒸馏”技术窃取了 OpenAI 专有模型的知识。这在部分报道中被描绘成一种冲击行业的“新发现”,暗示这是一种不寻常的捷径。

事实上,这种看法是一种误解。知识蒸馏是 AI 领域一项研究已久且被广泛使用的公开技术。

“蒸馏是当今公司拥有的、用以提升模型效率的最重要工具之一。”

— 恩里克·博伊克斯-阿德塞拉,宾夕法尼亚大学沃顿商学院研究员

知识蒸馏的起源与核心思想

知识蒸馏的概念最早由包括“AI 教父”杰弗里·辛顿在内的三位谷歌研究人员于 2015 年提出。

    • 最初的难题: 当时,为了提升性能,研究者常常将多个模型捆绑在一起运行,但这种方法“极其繁琐和昂贵”。
    • 核心洞见: 研究人员发现,传统的机器学习模型存在一个弱点:所有错误的答案都被同等对待。例如,模型将“狗”误认为“狐狸”和误认为“披萨”所受的惩罚是一样的。
    • “暗知识”的提出: 辛顿认为,大型模型内部其实包含了关于“哪些错误不那么严重”的隐藏信息。他将这种信息称为“暗知识”(dark knowledge)。如果能将这些信息提炼出来,就能更高效地训练小型模型。

蒸馏是如何运作的?

蒸馏的关键在于利用教师模型的“软目标”(soft targets),即模型对各种可能性的概率判断,而非给出非黑即白的最终答案。

想象一个图像识别模型在分析一张狗的图片时,它的内部判断可能是:

    • 30% 的可能性是狗
    • 20% 的可能性是猫
    • 5% 的可能性是牛
    • 0.5% 的可能性是汽车

通过这些概率,教师模型实际上向学生模型揭示了:狗与猫非常相似,与牛有一些距离,但与汽车则完全不同。学生模型利用这些带有丰富上下文的概率信息,能更快、更有效地学会如何分类,最终在大幅缩小体积的同时,几乎不损失准确性。

从无人问津到行业基石

这项技术并非一经提出就大获成功。最初,相关的论文甚至被学术会议拒稿。然而,随着 AI 模型规模的爆炸式增长,其运行成本也急剧攀升,业界开始迫切寻找提高效率的方法。

    • 关键案例: 2018 年,谷歌发布了强大的语言模型 BERT。由于其体积庞大、运行成本高,开发者在次年便利用蒸馏技术创造了一个更小的版本 DistilBERT,后者迅速在商业和研究领域得到普及。
    • 如今的地位: 蒸馏技术已变得无处不在,像 谷歌、OpenAI 和亚马逊 这样的公司都将其作为一项服务提供。最初那篇论文的引用次数已超过 25,000 次。

最新的研究表明,蒸馏技术在训练“思维链”等复杂推理模型时同样效果显著。例如,一个完全开源的模型仅用不到 450 美元的成本进行训练,就达到了与更大模型相当的性能。这再次证明,蒸馏是人工智能领域的一项基础性技术