人工智能公司 Anthropic 因使用盗版书籍训练其模型,与作者达成了 15 亿美元的和解。然而,本应向作者分配赔偿的流程却因网站故障和数据混乱而陷入僵局,使许多作者难以获得应有的赔偿。尽管名义上的赔偿额看似可观,但在与出版社和合著者分账后,实际到手金额大幅缩水,引发了作者们对赔偿不足、流程混乱以及整个 AI 产业建立在“被盗作品”基础之上的强烈不满。
一场价值 15 亿美元的和解
人工智能公司 Anthropic 承认下载了数百万本受版权保护的盗版书籍来训练其 AI 模型,但并未获得作者的许可。这引发了一场针对近 50 万名作者的集体诉讼。
- 和解金额: Anthropic 需支付 15 亿美元。
- 核心问题: 法官认为,虽然使用书籍训练 AI 可能构成“合理使用”,但使用盗版来源则不然。
- 行业趋势: 类似的诉讼也正针对 Meta 和 OpenAI 等其他科技巨头。
- 理论赔偿: 每本书的赔偿额估计为 3000 美元,但这笔钱需要作者与出版社对半分成。
尽管 Anthropic 经常宣扬其“道德”和“负责任”的形象,但许多人认为,它的成就建立在被盗作品之上,而创作者们在获取微薄补偿时却困难重重。
一个混乱不堪的索赔流程
为了向作者分配赔偿金,诉讼方设立了一个索赔网站,但这个网站很快就变成了一场噩梦。
畅销书作家 Maureen Johnson 花费了大量时间两次提交了 14 部符合条件的作品的索赔申请,但后来被告知系统里找不到任何记录。在与多层管理人员沟通无果后,她最终联系到了一名员工,对方在电话里笑着告诉她:
“编码很难。”
许多作者都遇到了类似的令人沮丧的经历:
- 数据丢失: 作家 Christopher Moore 在为他的 19 本书提交索赔时,填写完第 18 本后稍作休息,回来后发现所有输入的内容都被删除了。
- 信息错误: Moore 还发现,系统通知他认领的其他书籍大部分属于同名的其他作者,其中一本虽然是他的,但显示的版权信息却很奇怪。
- 版权混乱: 作家 April Henry 发现,她的一本书将有声书的播音员列为了版权共有人。
- 合作难题: 对于与他人合著的书籍,如何分配这笔法律和解金成了一个新问题,因为“没有人的合同里会写到如何分配法律和解的权利”。
作者们感到既愤怒又无奈。正如 Johnson 所说:“你的人工智能怪物吞噬了我们所有的作品,现在你却想用这个……根本无法工作的垃圾来打发我们。”
问题的根源:糟糕的数据
流程之所以如此混乱,根本原因在于 Anthropic 训练模型时所使用的数据源本身就有问题。
由于 Anthropic 在使用盗版书籍时没有创建自己的记录,律师们只能依赖盗版网站自身的元数据来确定受影响的作者名单。专家指出,这些数据的质量非常不可靠。
“那是众包的海盗图书馆元数据,”倡导组织“作者联盟”的执行董事 Dave Hansen 说。“我几乎不会依赖这些数据做任何事,更不用说管理一个大型重要诉讼中的法律索赔了。”
在法官设定的紧迫期限下,律师们只能在有限的时间内尽力而为。他们试图利用行业资源来“丰富”这些数据并生成联系信息,但要在如此大的规模上实现 100% 的准确性几乎是不可能的。
赔偿金的现实:远低于预期
15 亿美元的巨额和解金听起来很多,但分摊到近 50 万名版权所有者身上后,每个人的所得就相当有限了。
- 多方分成: 每本书约 3000 美元的估算金额,首先需要与出版社 50-50 分成。如果还有合著者,则需要进一步分割。
- 赔偿池效应: 赔偿金总额是固定的。参与索赔的人越多,每个人分到的钱就越少。
作家 April Henry 算了一笔账,她有 22 本书符合条件,理论上能拿到 66,000 美元,但经过各种分成后,“在某些情况下,每本书最终可能只有 500 美元。”
“对我来说,这是整个职业生涯,最终赔偿不到 3 万美元,”作家 Christopher Moore 说。“对于你的全部作品目录来说,这并不多。”
作者们不仅对赔偿金额感到失望,更担心 AI 对他们职业生涯的长期损害。这场诉讼的和解方案将于 5 月 14 日举行公平听证会,届时法官将审查作者们提出的“赔偿与损失不符”等多项投诉。与此同时,Anthropic 依然是科技界的巨头,估值高达 9000 亿美元。