Synth Daily

逝去而不被遗忘:重现消失的网络世界

一项研究揭示,十年前创建的网页中有 38% 已经消失,而在 2013 至 2023 年间,约有四分之一的网页无法访问。这凸显了网络内容的“链接腐烂”问题日益严重。然而,像 Wayback Machine 这样的网络档案馆正在发挥关键作用,通过修复断开的链接,成功“拯救”了约 15% 的已失效页面,将整体无法访问的页面比例从 25% 降低到了约 10%,证明了数字保存工作的重要性。

网络的脆弱性:链接正在失效

网络信息并非永恒。多项研究都指出了一个令人担忧的趋势:随着时间的推移,越来越多的网页链接会失效,这个现象被称为“链接腐烂”。

  • 皮尤研究中心 (Pew Research Center) 发现,2013 年存在的网页中,有 38% 在十年后已无法访问。
  • Ahrefs 的报告指出,过去九年中,有 66.5% 的外部链接已经失效。
  • 哈佛大学的 Jonathan Zittrain 分析发现,《纽约时报》文章中 25% 的深层链接已失效,而 1998 年的旧链接中,这一比例高达 72%

不同的研究从不同角度审视了这个问题,但结论一致:随着时间的流逝,越来越多的链接正在失效。

理解网页的生命周期

为了更好地理解网络保存的状态,可以对网页进行如下分类:

  • 存活 (Alive): 可以在线正常访问的网址。
  • 死亡 (Dead): 访问时返回错误代码或无法连接的网址。
  • 已保存 (Preserved): 既能在线访问,也被网络档案馆收录的网址。
  • 已拯救 (Rescued): 在线无法访问,但可以在网络档案馆中找到备份的网址。
  • 濒危 (Endangered): 可以在线访问,但尚未被网络档案馆收录的网址。如果它们从网上消失,就会彻底丢失。
  • 已消失 (Vanished): 在线无法访问,且在网络档案馆中也找不到备份的网址。

网络档案馆的角色:拯救数字记忆

网络档案馆,特别是 Wayback Machine,在对抗信息丢失方面发挥着至关重要的作用。通过保存网页快照,它们能够“拯救”那些在原始服务器上已经消失的内容。

分析皮尤研究中心的数据集后发现,Wayback Machine 显著降低了信息的丢失率。

如果不考虑网络档案馆,大约四分之一的网页链接是“死亡”的。但借助 Wayback Machine,真正“消失”的网页比例从 25% 降至仅 10%

具体来看:

  • 在所有样本中,Wayback Machine 存档了 72% 的网址。
  • 其中,16% 的网址属于“已拯救”类别,它们原本已经无法访问。
  • 仍有 18% 的网址处于“濒危”状态,它们虽然还能访问,但尚未被存档。

未来展望与挑战

尽管网络档案馆取得了显著成效,但仍有许多工作要做。拯救数字文化遗产的努力面临着诸多挑战。

  • 限制因素: 资源限制、大量使用 JavaScript 的复杂页面、网站的反爬虫机制、登录墙和付费墙等,都阻碍了网页的全面存档。
  • 解决方案:“修复所有蓝色链接” (TARB) 这样的项目,已经利用机器人和 Wayback Machine 修复了数千万个维基百科上的失效链接。
  • 全民参与: “即刻保存页面” (Save Page Now) 等服务鼓励用户在发现有价值的内容时主动进行保存,共同为保护我们的数字遗产做出贡献。