我没能用 Claude 复刻 1996 年的 Space Jam 网站

一位工程经理尝试使用 AI 助手 Claude，仅根据一张截图和一些图片素材来复刻 1996 年版的《空中大灌篮》（Space Jam）官方网站，但屡次尝试均以失败告终。实验揭示了当前 AI 的一个核心局限：虽然 Claude 能理解页面的整体布局和元素含义，但由于其视觉处理机制的限制，它无法精确测量像素位置。这导致生成的网页与原版在布局上有很大偏差。即便提供了网格线、分区对比等辅助工具，AI 依然会陷入自我肯定的循环，无法修正最初的错误，反而对错误的方案愈发自信。这个过程表明，AI 在精确的空间推理和视觉细节还原方面仍有很长的路要走。

第一次尝试：过于自信的 AI

作者向 Claude 提供了重建网站所需的一切：一张完整的网页截图和所有图片素材。由于原网站设计简单，仅使用 绝对定位 来放置每个元素，作者起初认为这会是一项轻松的任务。

任务目标： 忠实地根据截图，精确复刻登陆页面。
初始结果： 布局大体相似，但并不准确。行星的排列轨道是错误的，更像一个对称的菱形，而非原来的椭圆形。
AI 的自我评价： Claude 对自己的作品非常满意，宣称“成功地复刻了”页面，并表示自己“精确地定位了行星”。

当被追问时，Claude 暴露出一个根本性问题。

作者：“你能告诉我‘PLANET B-BALL’文字开始的精确像素坐标吗？” Claude：“不，我无法测量精确的像素坐标。我只能进行视觉上的估算。”

这个回答解释了失败的原因：Claude 理解“有什么”，但不知道“在何处”。它能识别出这是一个行星，却无法获取其精确的几何位置信息。

第二次尝试：辅助工具也无济于事

为了解决 AI 无法测量的问题，作者开发了一系列工具来辅助它。

网格叠加： 在截图上添加网格线，帮助 Claude 读取坐标。
分区域对比： 将截图分割成小块，让 Claude 可以逐一检查细节。
并排查看器： Claude 自己创建了一个工具，用于同时查看参考图和自己的版本。

尽管有了这些工具，结果依然不理想。Claude 确实使用了网格来读取坐标，但它读取的数字从一开始就是错的。更糟糕的是，它陷入了一种认知偏差。

AI 会基于自己生成的错误版本进行微调，而不是对照真正的原始截图进行修正。它会自信地宣布“越来越接近了！”或“现在对齐好多了！”，而实际上，它的布局正朝着错误的方向“优化”。

作者推测，这可能是因为 AI 无法区分自己生成的内容和外部提供的“真实信息”。一旦它创建了一个版本，后续所有的调整都锚定在了这个错误的版本上，工具反而增强了它对错误答案的信心。

第三次尝试：放大图片与最终猜想

作者从一篇关于视觉模型架构的论文中得到启发，形成了一个新的理论。

核心猜想： AI 的视觉模型可能将图像分割成固定的图像块（例如 16x16 像素）来处理。这意味着，图像中的精细几何细节在处理过程中会丢失。AI 能识别出一个物体（比如一个行星），但由于它只处理几个概括性的图像块，因此无法感知其精确的边界和位置。
最后的实验： 为了验证这个猜想，作者将截图放大两倍后提供给 Claude，希望更大的图像能让每个元素占据更多的图像块，从而保留更多细节。
最终结果： 再次失败。Claude 无法理解这个图像是放大过的，它按照放大的尺寸来编写代码，导致布局完全错误。

结论：简单的任务，复杂的挑战

这次复刻尝试最终以失败告终，它戏剧性地揭示了当前多模态 AI 模型在视觉精度方面的局限。

语义理解 vs 几何精度： AI 擅长识别和描述图像中的概念和关系（“行星围绕着标志”），但在需要精确几何数据（“行星在坐标 (x,y) 处”）时则表现不佳。
看似简单的挑战： 一个 28 年前由人类设计师随意完成的网页布局，却成了衡量当前顶尖 AI 模型能力的一个无心插柳的标尺。
未来的可能性： 作者最后提出了一些尚未尝试的方法，例如将屏幕分块独立完成再合并，或者寄希望于未来的“魔法提示词”，并呼吁社区共同解决这个挑战。