Chomsky 与统计学习的两种文化(2011)

这篇内容探讨了诺姆·乔姆斯基对统计机器学习方法的批判,并为后者进行了辩护。乔姆斯基认为,纯统计模型仅仅是模仿语言行为,缺乏对语言根本原则的深刻理解,他更偏爱简洁、可解释的理论。然而,文章指出,统计模型在搜索引擎、语音识别和机器翻译等领域取得了压倒性的成功,并且能更好地处理语言内在的概率性和模糊性。科学进步既需要描述事实的准确性,也需要理论的洞见,两者不可偏废。最终,统计方法被视为一种对语言这种复杂现象进行有效建模的强大工具,它代表了从实际表现(performance)而非理想化能力(competence)出发理解语言的务实路径。

乔姆斯基的核心批评

乔姆斯基认为,纯粹的统计方法虽然在工程上可能成功,但对于科学而言却价值有限。他的主要论点可以概括为:

    • 工程成功不等于科学洞见: 能够准确模拟语言现象只是收集事实,如同“收集蝴蝶”,真正的科学在于发现其背后的根本原则。
    • 模型缺乏可解释性: 包含数十亿参数的统计模型是难以理解的“黑箱”,无法提供任何深刻的见解。
    • 模拟方式错误: 人类说话并非通过查询概率表来选择词语,而是将内在的语义形式映射到句法结构。统计模型从根本上误解了这一过程。
    • 语言是天生的: 既然已有理论证明统计模型无法“学会”语言,那么语言能力必然是与生俱来的,研究统计模型是在浪费时间。

什么是统计模型?

为了更好地理解争论,首先需要明确几个概念。统计模型并非单一概念,它通常包含以下几个组成部分:

    • 数学模型: 定义变量之间的关系,例如公式 y = m x + b
    • 概率模型: 使用概率分布来描述变量关系,而不是严格的确定性关系。它处理的是可能性,而非必然性。
    • 训练模型: 使用数据来调整或“训练”模型。通过统计推断的过程,从数据中选择最佳参数(例如确定 y = m x + b 中的 mb)。

乔姆斯基的批评似乎主要针对那些像克劳德·香农提出的、拥有海量参数(例如数万亿个)的概率模型,而不是像牛顿万有引力定律那样只包含少数几个通过实验数据确定的常数的模型。

一个经典的例子是拼写规则 “I before E except after C”。与这个简单的规则相比,一个基于海量文本语料库的概率模型能提供更准确的描述:

    • 规则的准确性: "I before E" 的规则在不考虑 "C" 的情况下准确率约为 79%
    • “except after C”规则的准确性: 加入 "except after C" 的条件后,准确率反而下降到 75%,因为像 "science" 和 "species" 这样的词很常见。

虽然简单的规则提供了简洁的“见解”,但它的缺点是不够准确。一个更复杂的统计模型虽然准确性更高,但确实牺牲了简洁性。

统计语言模型的巨大成功

与乔姆斯基认为统计模型“成功有限”的观点相反,它们在现实世界中占据了主导地位。

    • 搜索引擎: 100% 的主要搜索引擎都基于经过训练的概率模型。
    • 语音识别: 100% 的主流系统都使用经过训练的概率模型,如隐马尔可夫模型。
    • 机器翻译: 100% 的顶级竞赛系统都使用统计方法。
    • 词义消歧、语法分析等: 在计算语言学的几乎所有子领域,统计方法都是表现最佳或占据主导地位的方法。

正如有人在1996年所说:“在过去十年里,统计方法已经从在计算语言学中几乎无人知晓,变成了基本常识……任何不能熟练使用其术语的人,在ACL(计算语言学协会)的宴会上都可能被误认为是服务员。”

这种压倒性的成功表明,统计模型在工程上是有效的,这本身就是其科学价值的有力证据。

科学的两种文化:描述事实 vs. 提供洞见

这场争论的核心是关于科学本质的不同看法。

“所有科学要么是物理学,要么是集邮。” —— 欧内斯特·卢瑟福

乔姆斯基与卢瑟福一样,鄙视单纯的描述性工作,他认为那只是“收集蝴蝶”,而真正的研究在于发现“解释性原则”。

然而,科学的进步依赖两条腿走路:理论和实验。只关注理论而忽视对事实的准确描述是片面的。对《科学》和《细胞》等顶级期刊上发表论文的分析表明,大量前沿研究都致力于精确地描述世界,而不仅仅是提供宏大的理论。

统计学家利奥·布莱曼(Leo Breiman)将这种分歧描述为“两种文化”:

    • 数据建模文化 (The Data Modeling Culture): 相信自然可以用一个相对简单的底层模型来描述。统计学家的工作是选择合适的模型并估计其参数。这符合乔姆斯基对简洁、可解释理论的偏好。
    • 算法建模文化 (The Algorithmic Modeling Culture): 认为自然过于复杂,无法用简单模型描述。其目标是找到一个能准确预测的函数,而不必关心这个函数的形式是否反映了自然的“真实”过程。这是现代机器学习的路径。

乔姆斯基反对的正是算法建模文化。他希望保留一个简单、优雅的模型(语言能力/competence),并为此放弃对实际语言数据(语言表现/performance)的精确拟合。而统计方法则选择了相反的道路:接受模型的复杂性,以换取对现实世界数据的准确描述。

语言的本质:理想形式还是复杂现实?

乔姆斯基的方法根植于一种柏拉图式的理想主义,他认为我们应该关注语言背后永恒、抽象的理想形式,而不是现实世界中混乱、表面的语言表现。

然而,语言并非永恒不变的理想形式。它更像是一个复杂的生物过程,受制于演化和文化的随机影响。

    • 语法并非非黑即白: 许多短语和句子的合语法性是模糊的,不同的人有不同的判断。一个僵化的、非概率性的语法理论难以解释这种现象,而概率模型可以轻松地将其描述为不同用法的可能性高低。
    • 语言是演变的: 语言处在不断的变化之中。概率模型能够很好地模拟这种渐进式的变化,而一个由布尔参数控制的“一键切换”式模型则显得非常不切实际。

“所有的语法都会‘泄漏’。” —— 爱德华·萨丕尔 (1921)

最终,乔姆斯基将语言学的研究对象限制在一个抽象的数学领域,从而可以施加他所偏好的简洁形式主义。为了将这种抽象理论与现实世界的人类联系起来,他不得不诉诸于一种与生俱来的“生物禀赋”或“语言器官”。这种方法或许在数学上很有趣,但它可能从根本上误解了语言的本质——一个混乱、随机、不断演化且最好用概率来理解的复杂系统。