Synth Daily

Reddit起诉AI公司非法抓取用户评论

社交媒体平台 Reddit 正在起诉人工智能公司 Perplexity AI 及其数据供应商,指控它们进行“工业规模”的非法数据抓取,窃取了数百万用户的评论用于商业目的。Reddit 声称,这些公司不仅绕过了平台自身的保护措施,还通过抓取谷歌搜索结果来间接收集其内容。这起诉讼并非针对所有使用其数据的 AI 公司,因为 Reddit 已经与谷歌、OpenAI 等公司签订了付费授权协议。此案的核心在于,Reddit 试图阻止那些在没有合法协议的情况下,通过技术手段获取其宝贵用户生成内容的公司。这起诉讼不仅将 AI 公司告上法庭,还首次将其背后的数据抓取服务商一同列为被告,揭示了 AI 产业背后依赖的数据供应链。

要点

  • 1Reddit 起诉 Perplexity AI 及三家数据服务公司,指控其非法抓取用户评论用于商业目的。
  • 2被告被指控绕过 Reddit 和谷歌的技术保护措施,以窃取数据来训练 AI 模型。
  • 3此案凸显了数据所有权的争议:平台方认为公开内容受保护,而一些技术公司则主张公共数据应可自由访问
  • 4Reddit 采取双重策略:一方面与谷歌等公司签订付费授权协议,另一方面则起诉未经授权的数据抓取行为。

这起诉讼引发了关于数据所有权和商业使用的激烈辩论。各方对此事的看法截然不同,反映了科技行业在数据价值问题上的深刻分歧。

视角

Reddit

数据抓取者是“窃贼”,他们绕过技术保护窃取数据,然后卖给需要训练材料的客户。Perplexity 选择购买被盗数据,而不是与我们达成合法协议。

数据抓取公司 Oxylabs

任何公司都不应声称自己拥有不属于他们的公共数据。这可能只是 Reddit 试图以过高的价格出售本就公开的数据。

AI 公司 Perplexity

我们将为用户自由、公平地获取公共知识的权利而辩护。我们反对任何威胁开放性和公共利益的行为。

争议焦点:谁拥有“公共”数据?

这起诉讼的核心法律和哲学问题是:发布在公共网站上的信息是否可以被任何人自由用于任何目的?Reddit 认为,即便是公开内容,其平台上的集合也受到保护,未经许可的商业性抓取构成侵权。然而,被告方则提出了相反的观点。

“任何公司都不应声称自己拥有不属于他们的公共数据。”

这一观点认为,一旦信息被公开发布,它就进入了公共领域,平台方无权垄断其商业用途。这场官司的结果可能会为 AI 时代的数据使用规则树立一个重要判例。

商业角度:授权与诉讼并行

Reddit 的行为显示了一种清晰的商业策略。它并不反对 AI 公司使用其数据,前提是必须通过付费授权的方式。公司在去年上市前,就与谷歌等巨头达成了利润丰厚的授权协议,允许它们使用 Reddit 的内容来训练 AI 模型。因此,这次诉讼的目标并非是封锁数据,而是要将那些试图“免费搭车”的公司拉回到谈判桌前,迫使它们为使用数据付费。这种“诉讼与授权并行”的策略,旨在保护其用户生成内容这一核心资产的商业价值。

时间线

关键事件

  • 1

    2024年

    Reddit 在华尔街成功上市,数据授权协议成为其收入来源之一。

  • 2

    2025年6月

    Reddit 提起了第一起类似的诉讼,被告是另一家大型 AI 公司 Anthropic。

  • 3

    2025年10月22日

    Reddit 在纽约联邦法院正式起诉 Perplexity AI 及其数据供应商。

  • 4

    2026年1月

    针对 Anthropic 案的听证会计划举行,可能为本案提供参考。

Q&A

Q: 为什么 Reddit 与谷歌合作,却要起诉 Perplexity AI?

A: 关键在于是否付费和获得授权。Reddit 与谷歌等公司签订了正式的授权协议,允许它们在付费的情况下使用其数据来训练 AI。而这次诉讼针对的是 Perplexity AI 这类被指控在未经许可、未付费的情况下,通过技术手段规避保护措施来抓取数据的公司。

你知道吗?