Cloudflare点名批评Perplexity后,有人为其鸣不平
Cloudflare 指责 AI 搜索引擎 Perplexity 绕过网站的 robots.txt 禁令,通过伪装成人类用户来抓取内容。这引发了一场核心争议:代表用户访问网站的 AI 代理,究竟应被视为机器人还是人类行为的延伸?Perplexity 辩称其行为是用户驱动的,并反过来质疑 Cloudflare 区分合法 AI 助手与恶意威胁的能力。这场争论凸显了在 AI 流量日益增长的背景下,网站所有者在保护内容与适应新型访问方式之间所面临的困境。
Cloudflare的指控:伪装与抓取
Cloudflare 以提供反机器人抓取和网络安全服务而闻名。为了验证其怀疑,他们进行了一项测试:
- 建立一个从未被任何机器人抓取过的新网站。
- 设置
robots.txt文件,明确阻止 Perplexity 已知的 AI 抓取机器人。 - 向 Perplexity 提问关于该网站内容的问题。
结果,Perplexity 成功回答了问题。Cloudflare 的研究人员发现,当其官方爬虫被阻止时,该 AI 搜索引擎使用了“一个旨在冒充 macOS 上 Google Chrome 浏览器的通用浏览器”来访问网站。
Cloudflare 的 CEO Matthew Prince 在 X 上公开指责:“一些所谓的‘信誉良好’的 AI 公司,其行为更像是朝鲜的黑客。是时候点名、羞辱并强力阻止他们了。”
Perplexity的回应与核心争议
许多人并不同意 Cloudflare 的看法,他们为 Perplexity 辩护。争论的焦点在于,AI 代表用户发出的访问请求,其性质究竟是什么。
一位 Hacker News 用户写道:“如果我作为人类请求一个网站,我就应该能看到内容。为什么一个大语言模型(LLM)代表我访问网站,其法律类别会与我的火狐浏览器有所不同?”
Perplexity 最初否认这些机器人属于自己,并称 Cloudflare 的文章是为其自身产品做营销。随后,Perplexity 在其官方博客中阐述了核心观点:
- 关键区别: 必须区分“自动化抓取”和“用户驱动的获取”。
- 核心问题: 这不仅仅是技术问题,而是关乎谁能在开放网络上获取信息。
- 反向指责: 这场争议暴露了 Cloudflare 的系统在区分合法 AI 助手和真正威胁方面存在根本性不足。
作为对比,Cloudflare 指出,像 OpenAI 这样的公司会遵守 robots.txt 规则,并且不会试图规避网络层面的阻止。
AI时代的新困境:机器人还是用户?
这场争论的背后,是机器人活动正在重塑互联网的现实。
- 流量剧变: 互联网历史上的一个转折点已经到来,机器人活动首次超过了人类活动。根据 Imperva 的报告,超过 50% 的流量来自 AI,而恶意机器人的流量也占到了总流量的 37%。
- 旧模式的瓦解: 过去,网站有明确的动机与谷歌等“好机器人”合作,因为它们能带来流量。同时,网站会用验证码等方式阻止恶意机器人。
- 新模式的挑战: 现在,大语言模型正在“吞噬”本应流向原始网站的流量。Gartner 预测,到 2026 年,搜索引擎的访问量将下降 25%。
这让网站所有者陷入了两难境地。X 上的讨论完美地捕捉了这种困境:
一位用户表示:“我希望 Perplexity 在我给它任务时,能代表我访问任何公开内容!”
另一位用户则反驳道:“但如果网站所有者不希望这样呢?他们希望你直接访问他们的主页,看他们的东西。”
后者的观点指出,内容创作者希望获得直接流量和潜在的广告收入,而不是让 Perplexity 将其“拿走”。如果未来人们普遍使用 AI 代理来安排旅行、预订晚餐和购物,那么网站阻止这些代理,是否会损害自己的商业利益?这个问题目前没有简单的答案。