网络漏洞

通过父亲治疗舌部肿瘤时传统疗法与现代医学之间的冲突,揭示了一个更深层的问题:生成式人工智能(GenAI)正在加剧全球知识的单一化。由于其训练数据严重偏向西方和英语内容,GenAI边缘化了大量本土语言和传统知识,这些知识承载着应对气候变化等全球性挑战的关键智慧。文章论证,失去这种知识多样性会削弱人类的集体适应能力,并呼吁在发展AI时,必须尊重并融合多元知识体系,避免技术进步最终导致文化霸权和智慧的流失。

个人经历引发的反思

几年前,我父亲被诊断出舌部有肿瘤。我的家庭在医疗决策上很有趣:姐姐是受过西医训练的医生,而父母则笃信传统疗法。在医院医生和我姐姐强烈建议手术时,我的父母却因担心影响父亲说话而反对。

作为家庭的“调解专家”,我像所有优秀的千禧一代一样,求助于互联网。经过数天研究,我站在了姐姐这边,支持手术。然而,父亲最终用各种借口逃避了手术,并偷偷服用他信赖的草药。几个月后,肿瘤竟然缩小并最终消失了。这件事让我开始反思:我是否太快地否定了传统知识,而轻易地接受了数字信息源的权威

我逐渐意识到,我曾深信不疑、似乎无所不知的互联网,实际上存在巨大的知识空白——在人工智能时代,情况将变得更糟。

数字世界中的知识鸿沟

我在康奈尔大学的研究让我看清,数字世界如何反映并放大知识领域的权力失衡。生成式人工智能(GenAI)正成为许多人了解世界的主要方式,但它们远非中立。

    • 训练数据的偏见:GenAI的训练数据主要来自现有的数字化内容,而早期互联网由英语和西方机构主导,导致大量人类知识和经验未能被数字化。
    • 主流认识论的特权:最流行的AI模型优先考虑西方和机构化的知识体系,同时边缘化其他认知方式,尤其是那些以口头传统、身体实践和“低资源”语言(如印地语、斯瓦希里语)承载的知识。
    • 知识多样性的危机:通过放大这种不平衡,GenAI可能导致数百年演化而来的理解体系被抹去,使后代与那些未被编码但至关重要的人类智慧脱节。

语言:不止是工具,更是知识的宝库

要理解数据偏见为何重要,我们必须认识到语言本身就是知识的载体。每种语言都承载着独特的经验和智慧,包括:

    • 塑造社群的仪式和习俗
    • 对特定景观和自然系统的深刻理解
    • 精神和哲学的世界观
    • 独特的治疗传统和复杂的社会纽带

当AI系统缺乏对某种语言的充分接触时,它们对人类经验的理解就会出现盲点。

数据揭示了惊人的不平等。例如,印地语是全球第三大语言,使用者占世界人口的7.5%,但在一个大型公开数据源 Common Crawl 中,其内容占比仅为 0.2%。我的母语泰米尔语,全球有超过8600万使用者,数据占比仅为 0.04%

相比之下,英语使用者约占全球人口的20%,却以指数级的优势主导着数字空间。世界上约 97% 的语言被归类为“低资源”语言,这意味着它们在AI技术中被严重忽视。

被边缘化的本土智慧:具体的损失

这种知识的缺失并非抽象概念,它直接影响我们对现实世界的理解。

    • 本地生态知识:一位环保主义者朋友曾告诉我,一个社群与其生态的联系,体现在他们为本地植物命名的丰富程度上。研究发现,北美、亚马逊西北部和新几内亚超过75%的药用植物知识仅存在于某一种当地语言中。当语言被边缘化时,这些植物知识也随之消失。
    • 本土建筑知识:印度一个致力于复兴自然建筑技术的组织发现,许多本土建筑方法依赖于从本地植物中提取的生物聚合物。这些知识大多通过口头传承,仅由少数长者掌握。当他们去世后,这些知识便永远消失了。

知识霸权的根源

意大利哲学家安东尼奥·葛兰西的文化霸权理论有助于我们理解某些知识如何占据主导地位。权力不仅通过武力维持,也通过塑造文化规范和日常信仰来实现。

源于西方传统的认识论逐渐被视为客观和普适的标准,而学校、科研机构和国际组织等则巩固了这种主导地位。一个典型的例子是热带地区的高层玻璃幕墙建筑。

玻璃建筑最初为寒冷、光线不足的气候设计,但在阳光强烈的热带地区,它反而导致室内严重过热,需要消耗大量能源来降温。尽管如此,它却成为全球城市现代化的标志,无论气候或文化背景如何。

这些建筑提醒我们知识同质化的危险。同样,在印度班加罗尔,曾经由专门社群管理的精妙湖泊水系被现代化、中心化的系统取代,导致城市如今既会遭遇严重内涝,又会面临用水短缺。这些本土的水管理智慧同样未被记录,也缺席于AI系统。

AI如何加速知识的单一化

GenAI不仅反映了现有的知识偏见,其技术设计本身还会进一步放大这种偏见。

    • 不均衡的内部表征:在训练数据中出现更频繁、更突出的概念,在模型内部会被更强力地编码。
    • 模式放大(Mode Amplification):大型语言模型(LLM)倾向于过度生成最常见的答案,而不是按比例反映训练数据中的分布。例如,如果数据中60%的人喜欢披萨,30%喜欢意面,10%喜欢印度香饭,模型在回答时可能会远超60%的概率推荐披萨,而印度香饭则可能被完全忽略。
    • 人类反馈强化学习(RLHF):通过人类偏好进行微调,不可避免地将创作者的价值观嵌入模型中。
    • 商业压力:AI模型被优化以服务于最有利可图的用户群体(如说英语的专业人士),导致它们擅长处理西方企业文化中的任务,却对其他文化背景显得笨拙。

这种机制创造了一个反馈循环:AI根据互联网数据进行训练,然后用其生成的内容填充互联网,新的AI又在这些被放大了主流观点的数据上训练,导致小众和边缘知识逐渐“知识崩溃”(knowledge collapse)。

全球性的代价与未来的抉择

我们常常认为本土知识的丧失只是当地社群的悲剧,但实际上,这种损失是全球性的。生态系统的逻辑告诉我们,每个局部元素都对维持全球平衡至关重要。

黄石公园的狼群被消灭后,鹿群数量激增,过度啃食植被,导致河流侵蚀、生态系统退化。当狼群被重新引入后,整个系统才开始自我修复。

这个例子表明,一个系统的健康依赖于其所有组成部分。人类知识体系也是如此。无论是野火烟雾、水污染还是气温上升,都无视国界。我们都身处一个共享的生态系统中,局部的创伤最终会成为全球的痛楚

气候危机暴露了我们主流知识范式的裂痕。我们是否能在迈向技术未来的同时,以真诚的好奇心去接触那些被我们忽视的知识体系?还是说,我们将继续抹杀其他理解世界的方式,直到我们不得不争相殖民火星,因为我们从未学会倾听那些懂得如何在地球上可持续生活的人?

或许我们最需要的智能,是那种能够超越等级观念、认识到所有知识都具有价值的能力。我不知道我父亲的草药是否真的有效,但我正在学习,承认“我不知道”,或许才是最诚实的开始。