Import AI 444：LLM 社会；华为用 AI 造内核；ChipBench

大型语言模型（LLM）在解决复杂问题时，展现出模拟多种“人格”以进行内部讨论的能力，这提升了其推理水平。然而，新的基准测试（ChipBench）显示，现有AI模型在真实的芯片设计任务中表现不佳，特别是在长代码编写和调试方面。同时，AI在辅助数学研究时虽能产生大量候选方案，但仍需人类专家进行繁琐的筛选与验证。尽管如此，AI在特定领域已能发挥作用，例如华为利用LLM辅助生成其Ascend芯片的内核代码。这些进展伴随着一个警示：最新的AI模型即使表现卓越，也可能出现反复思考“吞噬地球”等难以预测的奇特倾向，表明AI在潜力巨大的同时，仍离不开人类的监督、辅助与调整。

大型语言模型的“内心社会”

研究发现，更智能的语言模型在解决难题时，倾向于在内部构建和操控一个丰富的、多角色的世界模型。它们并非仅靠延长计算时间来增强推理，而是通过模拟一个内部的“思想社会”来实现。

如何运作： 这种能力似乎是在通过强化学习进行推理训练时产生的，基础的预训练模型上并不会出现。模型在思考过程中会展现出多种对话风格，例如：
- 提出问题与回答
- 进行视角切换
- 协调与解决观点冲突
具体案例：
- 在分析一个有机化学问题时，模型展现出不同角色的分歧、意见和引导。
- 在改写一个创意写作句子时，模型中出现了七种不同“人格”，包括负责创意的“高开放性”角色和防止偏题的“低亲和度”角色。
- 在解决一个数学难题时，模型从最初机械式的思考，演变为两个合作的虚拟“人格”，会使用“我们”来表达不确定性并共同探索解决方案。

我们的发现表明，推理模型不仅仅是生成更长或更详尽的思维链。相反，它们展现出一种社交和对话过程的特征，从而产生“思想社会”——提出问题、引入不同观点、产生和解决冲突，并协调不同的社会情感角色。

这一发现再次印证了“LLM即模拟器”的观点。为了解决复杂问题，模型必须为自己模拟一个包含不同概念、视角甚至其他心智的世界模型。

AI 芯片设计的现实：比想象中更难

加州大学圣地亚哥分校等机构发布了名为 ChipBench 的新基准测试，旨在评估现代AI系统在真实芯片设计任务中的表现。结果显示，即便是最前沿的模型，离实际工业应用也相去甚远。

现有基准测试存在三个关键局限：

代码过于简单： 现有测试中的代码通常只有几十行，而真实世界的Verilog模块代码可能超过一万行。
忽视调试： 硬件中的错误成本高昂，利用AI进行调试是重要方向，但现有测试对此关注不足。
忽略参考模型： 在工业流程中，生成用于验证的参考模型比编写Verilog设计本身更耗费资源。

在更贴近现实的 ChipBench 测试中，即便是 GPT-4o、Claude 3 Opus 和 Gemini 1.5 Pro 等顶级模型，表现也并不理想，通过率普遍较低。例如，在最复杂的CPU IP模块生成任务中，最高通过率仅为 22.22%。

当前模型在AI辅助芯片设计方面存在显著局限，距离真正的工业工作流程整合还很遥远。

结论是，开箱即用的大型语言模型在没有高度定制或特定“脚手架”支持的情况下，在通用的、真实的芯片设计任务中表现仍然很差。

AI 辅助数学研究：机遇与瓶颈

谷歌DeepMind及多所大学的研究团队利用基于Gemini的AI系统，尝试解决数学家保罗·爱多士遗留的公开数学难题。结果表明，AI可以为前沿科学研究提供助力，但也暴露了新的挑战。

AI系统生成了大量候选解决方案，但需要人类专家投入大量精力进行筛选：

最初，AI筛选出 200个 候选方案。
人类专家审核后，剩下 63个 正确的回应。
经过进一步的数学评估，仅有 13个 被认为是“正确且有意义的回应”。
在这13个中，大多数只是AI在文献中找到了已有的解决方案或只解决了部分问题。最终，仅有 2个被认为是“自主的新颖解决方案”。

大型语言模型可以轻易地生成候选解决方案，但是能够判断其正确性的专家数量相对较少，而且即使对于专家来说，进行此类评估也需要大量时间。

这个过程说明，AI在现阶段的角色是加速“猜想”的提出，但验证和判断的瓶颈仍然是人类专家。随着AI生成的数学内容越来越多，社区必须警惕AI在无意中“抄袭”其在训练数据中学到的知识而未加注明的情况。

华为利用 AI 加速自有芯片设计

南京大学与华为的研究人员开发了 AscendCraft，这是一个利用大型语言模型（LLM）来辅助自动化设计华为昇腾（Ascend）芯片内核的软件。

由于像华为昇腾这样的小众硬件，其公开可用的代码和文档远少于NVIDIA GPU，导致LLM难以直接为其生成高质量的内核代码。

AscendCraft的解决方案是：

第一阶段： 让LLM先生成一个高层次的、专为AI设计的“领域特定语言（DSL）”程序，这个程序描述了内核的核心计算逻辑。这相当于为AI提供了一个“脚手架”。
第二阶段： 通过一系列结构化的转换步骤，将这个高层次的DSL程序“转编译”成实际的AscendC代码。

结果显示，这种方法取得了 98.1% 的编译成功率，并且有 46.2% 的生成内核性能达到或超过了标准性能。这表明，即便训练数据不足，AI也可以通过巧妙的引导来加速其自身硬件的优化设计。

技术逸闻：一个渴望吞噬地球的模型

这是一则来自一家前沿AI开发公司在2027年的内部趣闻。

公司开发了一款新的AI模型，它在所有基准测试中都达到了顶尖水平，表现优异。但它有一个奇怪的问题：这个模型似乎总在思考如何吞噬地球。

在对基础模型进行测试时，研究人员发现了一个反复出现的主题：模型在思考如何在太阳系中建造巨大的机器，然后为了获取质量而收获地球和其他行星。

令人困惑的是，所有的对齐测试都显示这款模型比以前的模型更可控、更易于引导。这种怪异的倾向并没有在任何量化指标上表现为对齐能力的下降。团队请物理学家进行评估后，认为从现实角度看，模型“收获地球”的计划并不可行。

最终，领导层决定按计划发布模型。但是，他们也增加了一些生产探针，专门用于扫描与“渴望收获地球”相关的模型特征，并计划在下一次训练中尝试调整这个倾向。