Synth Daily

AI、维基百科与弱势语言的机翻乱象

由于缺乏母语编辑者和大量使用不可靠的机器翻译,像格陵兰语这样的小语种维基百科版本充斥着大量错误。这些有问题的文本反过来又污染了人工智能翻译模型的训练数据,形成了一个“垃圾进,垃圾出”的恶性循环。这个循环不仅威胁着这些弱势语言的数字生存,还直接导致了格陵兰语维基百科的最终关闭。

格陵兰语维基百科的幻象

四年前,当肯尼思·韦尔(Kenneth Wehr)接管格陵兰语维基百科时,他做的第一件事就是删除几乎所有内容。他认为,这是拯救它的唯一方法。尽管该版本已存在近20年,拥有约1500篇文章,但它实际上是一个幻象。

  • 问题根源: 几乎所有文章都是由根本不会说格陵兰语的人发布的。韦尔估计,可能只有一两位格陵兰语母语者曾经贡献过内容。
  • 机器翻译的泛滥: 更糟糕的是,大量文章是使用机器翻译直接复制粘贴的,充满了低级错误。
  • 错误的类型:
    • 语法混乱,句子不通。
    • 出现毫无意义的词语或随机字母组合。
    • 严重的事实错误,例如一篇文章声称加拿大只有41名居民。

韦尔抱怨道:“对那些作者来说,这可能看起来像格陵兰语,但他们根本无从判断。人工智能翻译器在处理格陵兰语方面表现得非常糟糕。”

一个全球性的问题:语言的末日循环

格陵兰语的困境并非个例。维基百科拥有超过340种语言版本,许多小语种版本都面临着被自动翻译内容淹没的风险。

  • 非洲语言: 志愿者估计,在四个非洲语言的维基百科版本中,有 40% 到 60% 的文章是未经校对的机器翻译。
  • 因纽特语: 超过三分之二的页面包含机器翻译的内容。

这引发了一个恶性循环。人工智能系统(如谷歌翻译和ChatGPT)通过抓取互联网上的海量文本来学习语言。对于小语种来说,维基百科往往是最大的,甚至是唯一的在线语言数据来源

计算机科学家凯文·斯坎内尔指出:“这些模型建立在原始数据之上。它们会从零开始学习一种语言的一切。没有其他输入,没有语法书,没有词典,只有输入的文本。”

这个循环可以被简单概括为:垃圾进,垃圾出。错误的维基百科页面毒害了AI模型,导致AI翻译质量更差;人们又用这些更差的工具制造出更多错误的维基百科页面,进一步污染数据源。

AI时代的“维基百科劫持者”

虽然机器人程序在维基百科中一直扮演着修复链接、纠正拼写等有益角色,但人工智能翻译工具却带来了新的破坏力。一些用户,被称为“维基百科劫持者”,正在利用这些工具大规模制造低质量内容。

  • 动机: 这些用户的动机各不相同,有些是天真的青少年,有些则是善意地认为自己在“帮助”少数族裔社区。
  • 破坏力升级: 以前他们只能依赖词典,现在“他们用谷歌翻译武装了自己”,可以制造出更长、看起来更可信的错误内容。

AI翻译在处理小语种时尤其不可靠,因为在线源文本很少,而且许多语言(如格陵兰语)的语法结构(粘着语)不适合当前主流的机器翻译系统。

对语言社区的真实伤害

这种现象的后果远不止于线上。它直接伤害了正在努力保护自己语言和文化的社区。

  • 尼日利亚的富尔富尔德语: 农业规划师阿卜杜勒卡迪尔·阿卜杜勒卡迪尔每天花三小时修正错误。他担心,一篇关于农作物的错误翻译文章可能会“轻易地伤害到”依赖这些信息的偏远地区农民。
  • 尼日利亚的伊博语: 翻译家露西·伊瓦拉表示,“伤害已经造成了”。低劣的翻译会让母语者感到沮丧,最终放弃自己的语言版本,回到英语维基百科。
  • 夏威夷语: 夏威夷大学助理教授诺亚·哈利利奥·所罗门报告说,夏威夷语维基百科上约35%的词语无法理解。

他痛苦地表示:“如果这就是将存在于网上的夏威夷语,那它带来的伤害将比任何东西都大。这提醒我们,我们的文化和语言曾无数次被盗用。”

更严重的是,这些被污染的AI模型正被用来制作错误百出的语言学习书籍,并在亚马逊等平台销售,给语言学习者制造了一个“雷区”。

希望与时间的赛跑

尽管问题严峻,但仍有成功的案例。芬兰的伊纳里萨米语维基百科就是一个典范。

  • 质量优先: 他们不关心数量,只关心质量。每一篇文章都由流利的母语者进行校对。
  • 成为语言的宝库: 维基百科被用作书面语的存储库,甚至被整合进学校课程,帮助创造和规范新词汇。
  • 积极的循环: 通过持续输入高质量的内容,他们希望未来的人工智能模型能够从中学习,产出更好的结果。

伊纳里萨米语言协会成员法布里奇奥·布雷乔里奥利说:“我们的最终目标是确保伊纳里萨米语能够生存下去。”

格陵兰语的最终结局

然而,并非所有语言都像伊纳里萨米语一样幸运。韦尔为重振格陵兰语维基百科付出了多年努力,但收效甚微,因为“格陵兰没有人对此感兴趣”。

最终,他请求关闭格陵兰语维基百科。维基百科语言委员会批准了这一请求,理由之一就是人工智能工具“频繁产生可能歪曲该语言的无意义内容”。

尽管维基百科页面被关闭,但损害可能已经无法挽回。至今,无论是谷歌翻译还是ChatGPT,都无法用正确的格陵兰语从1数到10。