Reddit 正在起诉 Perplexity 及另外三家数据公司,指控它们未经许可,通过抓取搜索引擎结果来“白嫖”其平台内容,以规避为 AI 训练数据支付授权费。Reddit 不仅要求经济赔偿,还寻求法院发布永久禁令,阻止这些公司继续使用其数据。
诉讼的核心:绕过付费墙
自 2023 年起,Reddit 开始向希望访问其内容的公司收费,旨在将其庞大的用户数据商业化,尤其是在 AI 训练领域。
- 商业模式转型: Reddit 已与谷歌(Google)和 OpenAI 等公司签署了数据授权协议。
- 核心指控: 被告公司被指控通过抓取搜索引擎中的 Reddit 内容,非法绕过了付费授权机制。
- 诉讼目标: Reddit 寻求 经济赔偿,并要求法院下达 永久禁令,禁止这些公司出售或使用已抓取的 Reddit 内容。
被告公司及其行为
此次诉讼涉及多家公司,但矛头尤其指向了 AI 公司 Perplexity。
- 数据抓取公司: SerApi、OxyLabs 和 AWMProxy 都是以从搜索结果中收集并销售数据为核心业务的公司。
- AI 公司 Perplexity: 作为一家 AI 公司,Perplexity 需要大量数据来训练其模型。它此前已被指控未经授权复制内容,并无视网站的
robots.txt协议(一种网站用于告知爬虫不要抓取其内容的标准)。
关键证据:“测试帖”实验
Reddit 称其掌握了 Perplexity 非法抓取内容的直接证据。在发出停止侵权函后,Perplexity 一方面否认使用 Reddit 数据,另一方面其聊天机器人却继续引用 Reddit 的内容。
为了证实这一点,Reddit 进行了一个实验:
- 发布一个 “测试帖”,该帖子内容独特,且只能通过谷歌搜索引擎爬取,在互联网上没有其他访问途径。
- 在短短几小时内,Perplexity 的问答引擎就能够复现该帖子的内容。
诉讼文件指出:“Perplexity 能够获取该 Reddit 内容并将其用于其‘问答引擎’的唯一途径,就是它或其共同被告从谷歌(搜索结果)中抓取了该内容,然后迅速将其整合到自己的引擎中。”
Perplexity 的回应
在被要求置评时,Perplexity 发表了以下声明:
Perplexity 尚未收到诉讼文件,但我们将始终为用户自由、公平地获取公共知识的权利而积极抗争。我们提供带有准确 AI 的事实性答案,我们的方法始终是原则性和负责任的,我们不会容忍对开放性和公共利益的威胁。