Synth Daily

Reddit起诉AI公司非法抓取用户评论

· 2025-10-23

社交媒体平台 Reddit 正在起诉人工智能公司 Perplexity AI 及其数据供应商，指控它们进行“工业规模”的非法数据抓取，窃取了数百万用户的评论用于商业目的。Reddit 声称，这些公司不仅绕过了平台自身的保护措施，还通过抓取谷歌搜索结果来间接收集其内容。这起诉讼并非针对所有使用其数据的 AI 公司，因为 Reddit 已经与谷歌、OpenAI 等公司签订了付费授权协议。此案的核心在于，Reddit 试图阻止那些在没有合法协议的情况下，通过技术手段获取其宝贵用户生成内容的公司。这起诉讼不仅将 AI 公司告上法庭，还首次将其背后的数据抓取服务商一同列为被告，揭示了 AI 产业背后依赖的数据供应链。

要点

1Reddit 起诉 Perplexity AI 及三家数据服务公司，指控其非法抓取用户评论用于商业目的。
2被告被指控绕过 Reddit 和谷歌的技术保护措施，以窃取数据来训练 AI 模型。
3此案凸显了数据所有权的争议：平台方认为公开内容受保护，而一些技术公司则主张公共数据应可自由访问。
4Reddit 采取双重策略：一方面与谷歌等公司签订付费授权协议，另一方面则起诉未经授权的数据抓取行为。

这起诉讼引发了关于数据所有权和商业使用的激烈辩论。各方对此事的看法截然不同，反映了科技行业在数据价值问题上的深刻分歧。

视角

数据抓取者是“窃贼”，他们绕过技术保护窃取数据，然后卖给需要训练材料的客户。Perplexity 选择购买被盗数据，而不是与我们达成合法协议。

数据抓取公司 Oxylabs

任何公司都不应声称自己拥有不属于他们的公共数据。这可能只是 Reddit 试图以过高的价格出售本就公开的数据。

AI 公司 Perplexity

我们将为用户自由、公平地获取公共知识的权利而辩护。我们反对任何威胁开放性和公共利益的行为。

争议焦点：谁拥有“公共”数据？

这起诉讼的核心法律和哲学问题是：发布在公共网站上的信息是否可以被任何人自由用于任何目的？Reddit 认为，即便是公开内容，其平台上的集合也受到保护，未经许可的商业性抓取构成侵权。然而，被告方则提出了相反的观点。

“任何公司都不应声称自己拥有不属于他们的公共数据。”

这一观点认为，一旦信息被公开发布，它就进入了公共领域，平台方无权垄断其商业用途。这场官司的结果可能会为 AI 时代的数据使用规则树立一个重要判例。

商业角度：授权与诉讼并行

Reddit 的行为显示了一种清晰的商业策略。它并不反对 AI 公司使用其数据，前提是必须通过付费授权的方式。公司在去年上市前，就与谷歌等巨头达成了利润丰厚的授权协议，允许它们使用 Reddit 的内容来训练 AI 模型。因此，这次诉讼的目标并非是封锁数据，而是要将那些试图“免费搭车”的公司拉回到谈判桌前，迫使它们为使用数据付费。这种“诉讼与授权并行”的策略，旨在保护其用户生成内容这一核心资产的商业价值。

时间线

关键事件

1
2024年
Reddit 在华尔街成功上市，数据授权协议成为其收入来源之一。
2
2025年6月
Reddit 提起了第一起类似的诉讼，被告是另一家大型 AI 公司 Anthropic。
3
2025年10月22日
Reddit 在纽约联邦法院正式起诉 Perplexity AI 及其数据供应商。
4
2026年1月
针对 Anthropic 案的听证会计划举行，可能为本案提供参考。

Q&A

Q: 为什么 Reddit 与谷歌合作，却要起诉 Perplexity AI？

A: 关键在于是否付费和获得授权。Reddit 与谷歌等公司签订了正式的授权协议，允许它们在付费的情况下使用其数据来训练 AI。而这次诉讼针对的是 Perplexity AI 这类被指控在未经许可、未付费的情况下，通过技术手段规避保护措施来抓取数据的公司。

你知道吗？

Reddit 之所以成为数据抓取的主要目标，是因为它被认为是“有史以来最大、最具活力的人际对话集合之一”。其海量的用户评论为训练 AI 理解人类语言提供了极其丰富的材料。

来源

Reddit起诉AI公司，指控其“工业规模”抓取用户评论