Synth Daily

ChatGPT 聊天内容曾被收录进搜索引擎,虽已下架但依然可在网上找到

OpenAI 的“分享”功能允许用户选择让聊天内容被搜索引擎发现,这无意中导致了超过 10 万个 ChatGPT 聊天记录被公开。尽管 OpenAI 迅速采取措施阻止了新的内容被索引,但大量包含个人简历、商业计划和私密对话的聊天记录已被互联网档案馆永久存档。这一事件暴露了在用户隐私、数据所有权和平台责任方面存在的深刻问题,显示了看似无害的功能可能带来的巨大风险。

一个简单的分享按钮引发的意外

OpenAI 最初推出“分享”功能时,看起来只是一个方便的工具。用户点击一下,就能生成一个链接,用来分享有趣的对话。但这个功能背后隐藏着一个关键的选项框:“让这个聊天可被发现”。

许多用户没有仔细考虑就勾选了它。结果,成千上万的 ChatGPT 聊天记录出现在了谷歌的搜索结果中。这些链接不再是私密的,而是变成了任何人都能访问的公开页面。

  • 部分聊天内容暴露了个人简历和工作申请。
  • 其他内容则涉及公司内部的商业计划、敏感的政治观点,甚至承认学术作弊或个人挣扎的私密对话。
  • 这些内容常常与真实姓名关联,导致个人信息被直接曝光。

有开发者在社交媒体上指出,连 API 密钥和开发者提示都出现在了搜索结果中。

官方的补救与挥之不去的问题

事件曝光后,OpenAI 迅速采取行动。他们为分享页面添加了 noindexnofollow 标签,并请求谷歌移除已收录的链接。谷歌也做出响应,数万个链接从搜索结果中消失。

然而,损害已经造成。在 OpenAI 修复问题之前,大量的公开聊天记录已经被互联网档案馆 (Internet Archive) 保存

研究人员发现,超过 100,000 个聊天记录被完整存档,并且可以被搜索。更关键的是,互联网档案馆的主管表示,只要 OpenAI 提出请求,他们很可能会移除这些内容,但 OpenAI 至今没有提出这样的请求

谁来为数据负责?

这一事件引发了一系列棘手的问题:

  • 一个 ChatGPT 对话被分享后,它到底属于谁
  • 对于那些没有完全理解分享后果的用户,OpenAI 是否应该承担保护责任?
  • 如果有些用户希望他们的聊天记录被保存,那么谁的权利更重要?

最核心的问题或许是:在没有让用户充分理解其行为后果的情况下,平台是否应该推出这样的公开分享功能?

即使用户现在分享聊天记录,OpenAI 的 robots.txt 文件在技术上仍然允许搜索引擎访问分享链接。虽然新的元标签阻止了索引,但这提醒我们,一个微小的技术细节疏忽就可能暴露真实的用户信息。

我们很容易忘记,感觉上私密的对话,只需一次点击,就可能变成永久公开的页面。谷歌或许抹去了足迹,但许多对话仍然存在于互联网档案馆中。

产品与SEO团队的教训

这次事件不仅是隐私问题,也揭示了产品设计、用户体验和搜索引擎优化(SEO)如何共同作用并带来意想不到的风险。

  • 这不是一个程序错误:让聊天内容可被发现是故意设计的功能,但它被当作一个小设置,而没有被视为一个需要用户谨慎做出的高风险决定。
  • 用户并非专家:大多数用户不了解“索引”、“抓取”或“搜索可见性”等技术概念。产品设计没能帮助他们停下来思考风险。
  • 缺乏必要的阻力:这个选项本应设置更强的警告或二次确认,明确告知用户“可被发现”的真实含义。
  • 用户无法控制:用户没有任何方式来追踪、撤销或监控他们已公开分享的内容,也收不到任何关于内容被索引的通知。