社交媒体平台 Reddit 正在起诉人工智能公司 Perplexity AI 及其数据供应商,指控它们进行“工业规模”的非法数据抓取,窃取了数百万用户的评论用于商业目的。Reddit 声称,这些公司不仅绕过了平台自身的保护措施,还通过抓取谷歌搜索结果来间接收集其内容。这起诉讼并非针对所有使用其数据的 AI 公司,因为 Reddit 已经与谷歌、OpenAI 等公司签订了付费授权协议。此案的核心在于,Reddit 试图阻止那些在没有合法协议的情况下,通过技术手段获取其宝贵用户生成内容的公司。这起诉讼不仅将 AI 公司告上法庭,还首次将其背后的数据抓取服务商一同列为被告,揭示了 AI 产业背后依赖的数据供应链。
要点
1Reddit 起诉 Perplexity AI 及三家数据服务公司,指控其非法抓取用户评论用于商业目的。
这一观点认为,一旦信息被公开发布,它就进入了公共领域,平台方无权垄断其商业用途。这场官司的结果可能会为 AI 时代的数据使用规则树立一个重要判例。
商业角度:授权与诉讼并行
Reddit 的行为显示了一种清晰的商业策略。它并不反对 AI 公司使用其数据,前提是必须通过付费授权的方式。公司在去年上市前,就与谷歌等巨头达成了利润丰厚的授权协议,允许它们使用 Reddit 的内容来训练 AI 模型。因此,这次诉讼的目标并非是封锁数据,而是要将那些试图“免费搭车”的公司拉回到谈判桌前,迫使它们为使用数据付费。这种“诉讼与授权并行”的策略,旨在保护其用户生成内容这一核心资产的商业价值。
时间线
关键事件
1
2024年
Reddit 在华尔街成功上市,数据授权协议成为其收入来源之一。
2
2025年6月
Reddit 提起了第一起类似的诉讼,被告是另一家大型 AI 公司 Anthropic。
3
2025年10月22日
Reddit 在纽约联邦法院正式起诉 Perplexity AI 及其数据供应商。
4
2026年1月
针对 Anthropic 案的听证会计划举行,可能为本案提供参考。
Q&A
Q: 为什么 Reddit 与谷歌合作,却要起诉 Perplexity AI?
A: 关键在于是否付费和获得授权。Reddit 与谷歌等公司签订了正式的授权协议,允许它们在付费的情况下使用其数据来训练 AI。而这次诉讼针对的是 Perplexity AI 这类被指控在未经许可、未付费的情况下,通过技术手段规避保护措施来抓取数据的公司。
你知道吗?
Reddit 之所以成为数据抓取的主要目标,是因为它被认为是“有史以来最大、最具活力的人际对话集合之一”。其海量的用户评论为训练 AI 理解人类语言提供了极其丰富的材料。