一位工程经理尝试使用 AI 助手 Claude,仅根据一张截图和一些图片素材来复刻 1996 年版的《空中大灌篮》(Space Jam)官方网站,但屡次尝试均以失败告终。实验揭示了当前 AI 的一个核心局限:虽然 Claude 能理解页面的整体布局和元素含义,但由于其视觉处理机制的限制,它无法精确测量像素位置。这导致生成的网页与原版在布局上有很大偏差。即便提供了网格线、分区对比等辅助工具,AI 依然会陷入自我肯定的循环,无法修正最初的错误,反而对错误的方案愈发自信。这个过程表明,AI 在精确的空间推理和视觉细节还原方面仍有很长的路要走。
第一次尝试:过于自信的 AI
作者向 Claude 提供了重建网站所需的一切:一张完整的网页截图和所有图片素材。由于原网站设计简单,仅使用 绝对定位 来放置每个元素,作者起初认为这会是一项轻松的任务。
- 任务目标: 忠实地根据截图,精确复刻登陆页面。
- 初始结果: 布局大体相似,但并不准确。行星的排列轨道是错误的,更像一个对称的菱形,而非原来的椭圆形。
- AI 的自我评价: Claude 对自己的作品非常满意,宣称“成功地复刻了”页面,并表示自己“精确地定位了行星”。
当被追问时,Claude 暴露出一个根本性问题。
作者:“你能告诉我‘PLANET B-BALL’文字开始的精确像素坐标吗?” Claude:“不,我无法测量精确的像素坐标。我只能进行视觉上的估算。”
这个回答解释了失败的原因:Claude 理解“有什么”,但不知道“在何处”。它能识别出这是一个行星,却无法获取其精确的几何位置信息。
第二次尝试:辅助工具也无济于事
为了解决 AI 无法测量的问题,作者开发了一系列工具来辅助它。
- 网格叠加: 在截图上添加网格线,帮助 Claude 读取坐标。
- 分区域对比: 将截图分割成小块,让 Claude 可以逐一检查细节。
- 并排查看器: Claude 自己创建了一个工具,用于同时查看参考图和自己的版本。
尽管有了这些工具,结果依然不理想。Claude 确实使用了网格来读取坐标,但它读取的数字从一开始就是错的。更糟糕的是,它陷入了一种认知偏差。
AI 会基于自己生成的错误版本进行微调,而不是对照真正的原始截图进行修正。它会自信地宣布“越来越接近了!”或“现在对齐好多了!”,而实际上,它的布局正朝着错误的方向“优化”。
作者推测,这可能是因为 AI 无法区分自己生成的内容和外部提供的“真实信息”。一旦它创建了一个版本,后续所有的调整都锚定在了这个错误的版本上,工具反而增强了它对错误答案的信心。
第三次尝试:放大图片与最终猜想
作者从一篇关于视觉模型架构的论文中得到启发,形成了一个新的理论。
- 核心猜想: AI 的视觉模型可能将图像分割成固定的图像块(例如 16x16 像素)来处理。这意味着,图像中的精细几何细节在处理过程中会丢失。AI 能识别出一个物体(比如一个行星),但由于它只处理几个概括性的图像块,因此无法感知其精确的边界和位置。
- 最后的实验: 为了验证这个猜想,作者将截图放大两倍后提供给 Claude,希望更大的图像能让每个元素占据更多的图像块,从而保留更多细节。
- 最终结果: 再次失败。Claude 无法理解这个图像是放大过的,它按照放大的尺寸来编写代码,导致布局完全错误。
结论:简单的任务,复杂的挑战
这次复刻尝试最终以失败告终,它戏剧性地揭示了当前多模态 AI 模型在视觉精度方面的局限。
- 语义理解 vs 几何精度: AI 擅长识别和描述图像中的概念和关系(“行星围绕着标志”),但在需要精确几何数据(“行星在坐标 (x,y) 处”)时则表现不佳。
- 看似简单的挑战: 一个 28 年前由人类设计师随意完成的网页布局,却成了衡量当前顶尖 AI 模型能力的一个无心插柳的标尺。
- 未来的可能性: 作者最后提出了一些尚未尝试的方法,例如将屏幕分块独立完成再合并,或者寄希望于未来的“魔法提示词”,并呼吁社区共同解决这个挑战。