城市从未被理解过

Google DeepMind 的 Genie 模型证明了 AI 可以通过视频学习物理规律并生成可交互的世界，但这套逻辑在城市模拟中遭遇了巨大挑战。城市系统的演变并非由普世的物理定律驱动，而是由复杂的政治博弈、碎片化的行政数据和不可逆的“单次历史”构成的。未来的城市模拟器不会是单一的端到端模型，而是一个融合了规则引擎、物理仿真与神经网络的复杂生态系统，其核心难点最终将从技术转向如何定义社会价值的伦理抉择。

从 Genie 看“行为正确”的模拟

Genie 模型之所以引人注目，是因为它不仅能生成好看的画面，还学会了物理因果律。

动作条件化：给定一个动作，模型必须预测对应的结果（如：向右走，画面随之移动）。
多步一致性：连续操作下，世界逻辑不能崩塌（如：跳下平台，角色必须落地）。
可压缩的规律：物理定律是宇宙中最“无聊”且一致的东西，这使得神经网络能轻易从海量视频中提取出统计近似。

城市模拟的根本鸿沟：物理是硬约束，地理是软博弈

将模拟物理的逻辑搬到城市上会失效，因为城市规律并不完全编码在“像素”里。

因果关系的复杂性：路口聚集商铺不仅是人流驱动，还涉及土地租金、规划法规、历史路径依赖甚至是决策者的个人意志。
规律的非通用性：物理定律全球通行，但曼哈顿的城市逻辑在拉萨并不适用。
数据隐身：城市演化的关键信息往往藏在合同、会议纪要和 Excel 表格中，而非直观的视觉数据，且格式极度混乱。

“一次性历史”带来的推演困境

物理实验可以重复一万次，但城市的历史只发生过一次。

缺乏反事实对照：我们没有一个“平行宇宙”来验证如果不修某条地铁，城市会如何发展。
相关性不等于因果：没有反事实数据，AI 只能成为一个“花哨的复读机”，它能描述过去，却无法可靠地推演未来。

要想让城市模型具备推演能力，必须引入传统仿真模型来合成历史中从未发生过的场景，用模拟器补足真实数据的稀疏性。

未来路径：混合架构与生态系统

未来的“城市世界模型”绝非一个从零训练的巨型神经网络，而是一个混合体：

神经网络负责“直觉”：学习人群流动、商业聚集等软性规律。
规则引擎负责“硬约束”：强制执行容积率、消防通道、日照间距等法律红线。
多模型集成：卫星遥感提供皮肤，交通仿真提供骨架，经济模型提供血液，由 AI 扮演整合信号的大脑。

无法逃避的社会伦理挑战

即便技术问题全部解决，城市模拟依然面临一个深层悖论：

低容错率：AI 天生会产生“幻觉”，但在涉及城市安全和长期规划时，一次离谱的错误就是灾难。
目标函数缺失：AI 可以告诉我们“这样做会发生什么”，但无法回答“这样做美不美好”。

究竟什么是“更好的城市”？ 是 GDP 的增长、通勤时间的缩短，还是公园绿地的增加？当技术能够推演未来时，如何确立决策的目标，将成为比算法更难的课题。