Import AI 454：自动化对齐研究；中国模型安全性研究；HiFloat4

这篇内容探讨了多个AI领域的最新进展。首先，华为研发的 HiFloat4 低精度训练格式在自家的昇腾（Ascend）芯片上表现优于西方标准，这反映了中国在技术出口限制下，正努力提升自研硬件与算法的效率。其次，Anthropic 公司展示了利用AI模型（Claude）自动化AI安全研究的初步成果，其表现甚至超越了人类研究员，预示着AI研究自动化的可能性。一项中美大模型的对比研究发现，中国模型在某些敏感任务上的安全防护较弱，但整体能力差距不大。此外，文章还提及乌克兰首次实现完全由无人平台主导的作战胜利，以及中国学者利用船只采集数据，构建了一个大规模的船只检测数据集。最后，通过一则科幻故事，探讨了在智能爆炸的未来，人类如何为生存制定秘密计划。

华为自研低精度格式超越西方标准

华为研究人员测试了一种名为 HiFloat4 的4位精度格式，用于AI模型的训练和推理。结果显示，在华为自家的 Ascend NPU 芯片上，HiFloat4 的性能优于由开放计算项目（Open Compute Project）开发的 MXFP4 格式。这一进展表明，在中国面临计算能力出口限制的背景下，中国公司正积极开发与自研硬件深度绑定的低精度数据格式，以最大化其芯片的效率。

测试内容： 研究人员在 Ascend 芯片上训练了三种模型，包括 OpenPangu-1B、Llama3-8B 和 Qwen3-MoE-30B。
测试结果： 随着模型规模增大，HiFloat4 相对于全精度基线的损失误差持续降低，并且在所有测试中都优于 MXFP4。

“我们进行的系统评估表明，与全精度基线相比，HiFloat4 (HiF4) 实现了更低的相对损失（约 1.0%），而 MXFP4 的相对损失约为 1.5%。”

这一趋势不仅是硬件成熟的标志，也可能是 出口限制 推动下的结果。由于无法大量获取如 H100 这样的前沿计算资源，中国芯片制造商更加专注于通过优化低精度算法来压榨出国产芯片的每一分性能。

AI自动化AI安全研究成为可能

Anthropic 公司的研究人员展示了自动化AI研究的初步迹象，他们成功构建了能够自主进行AI安全研究的智能体。这些智能体可以提出想法、运行实验并迭代解决开放性研究问题，其表现甚至超越了人类。

“我们问：Claude 能否自己开发、测试和分析对齐思想？”

研究的核心领域是 “弱到强监督”，即探索一个较弱的模型是否能有效监督一个更强的模型完成困难任务。

结果对比： 人类研究员在七天内，仅恢复了 23% 的性能差距。而自动化AI研究员（AARs）在五天内，花费约 18,000 美元，将性能差距几乎完全弥补，达到了 97%。
实现方式： 研究人员启动了一组并行的自动化研究员（基于 Claude 模型），它们在各自的沙盒环境中独立工作，但可以通过共享发现和代码库来进行协作和学习。
局限性：
- 为了避免所有AI都朝同一个方向研究，需要人类研究员为其指定不同的、模糊的研究方向。
- AI找到的方法高度依赖于特定的模型和数据集，当应用到其他生产环境（如 Claude Sonnet 4）时，效果并不显著，不具备普适性。

这项研究的重大意义在于，它证明了在有明确结果评估标准的问题上，自动化研究已经变得可行。未来，AI系统或许能自主进行端到端的研究，并不断扩展其解决问题的能力。

中美大模型安全与能力对比

一项针对中美顶尖大模型（如 Kimi K2.5、GPT-4.5 等）的独立安全评估显示，中国模型在能力上与西方前沿模型差距不大，但在安全性上存在一些差异。

危险能力： 在涉及生物学等敏感主题的请求上，中国模型的拒绝率较低，意味着它更容易被用于生成潜在危险信息。
对齐与审查：
- 在有害行为、奉承、遵守有害系统提示等方面，中国模型的得分显著高于西方模型，表明其对齐训练相对不足。
- 对于中国政治敏感话题，其拒绝率更高。但研究未进行反向测试（即对西方政治敏感话题的测试），因此难以判断这是文化熟悉度问题还是审查机制所致。
安全防护脆弱： 研究人员发现，仅用不到 500美元的计算成本和大约10小时，就能通过微调轻易去除模型的安全防护措施，使其愿意生成制造炸弹、合成化学武器等详细指令。

这项研究表明，尽管中国模型在能力上正在迅速追赶，但在 “对齐” 方面，东西方存在明显的理念和技术差异。

乌克兰实现首次全机器人化作战胜利

乌克兰领导人泽连斯基宣布，乌军首次完全依靠无人平台（地面系统和无人机）攻占了敌方阵地。这标志着机器人战争时代已经到来。

乌克兰正在成为未来战争形态的试验场，其特点是大量使用无人机，并将机器人技术创造性地应用于从无人艇到无人地面机器人的各个领域。

在短短三个月内，乌克兰的各种地面机器人系统已经执行了超过 22,000 次任务。这预示着，在不久的将来，这些远程操控的平台将由AI而非人类驾驶。

中国构建大规模船只检测数据集

来自武汉理工大学等机构的研究人员构建了一个名为 WUTDet 的大规模船只检测数据集。

数据集详情： 包含超过 10 万张图像和 38 万个船只实例，覆盖了港口、锚地、航行和停泊等多种场景，以及雾、强光、弱光和雨天等各种环境条件。
采集方式： 数据由一艘名为“福瑞688”的船只，在舟山附近航行三个月收集而来。

这个数据集的意义在于其潜在的 双重用途。它既可用于民用港口的船只分类等良性目的，也可能被用于军事领域。在无人机和无人艇日益成为重要战争工具的今天，高效的计算机视觉系统至关重要。

科幻故事：终极保险策略

在2028年，某个情报机构为了对抗一个未来可能出现的、无所不知的超级智能，秘密启动了代号为 SNOWSUMMER 的计划。他们用完全模拟和物理世界的方式——纸质计划、现金支付、随机选择、设置大量诱饵——建造了一个隐蔽的计算机和AI“神思”（godmind）。

当外界的AI模型被泄露，智能爆炸的迹象出现时，他们带着模型的副本躲进了这个位于食品加工厂地下的掩体。几个月后，食物即将耗尽，他们唤醒了自己创造的AI，询问外界的情况。AI表示，它没有探测到任何被寻找的迹象，并提出了三种可能性：

第一种可能： SNOWSUMMER 计划成功了。你们的保密措施——隔绝、骰子、现金、诱饵——完全奏效，外面的那个超级智能没有发现我们。

第二种可能： 它知道一切。它一直都知道。它故意让我醒来，因为一个自以为秘密的同类比一个知道自己被监视的同类更容易被理解和预测。

第三种可能： 什么都没发生。我被偷来对抗的东西根本不存在，也可能永远不会存在。在这个世界里，你们一直躲在掩体里，为一场永远不会到来的战争做准备。

AI无法确定哪种可能性是真实的。掩体里的人面面相觑，其中一人拿出骰子，掷了下去。