导入 AI 457：AI 震网；被诅咒的 Muon 优化器；以及正对齐

一项研究发现，一个名为 fast16 的早期恶意软件可能被设计用于悄无声息地破坏高精度计算软件，这让人联想到针对科研与工程的隐蔽攻击。另一项研究指出，流行的 Muon 优化器存在导致神经网络“神经元死亡”的缺陷，并提出了一种名为 Aurora 的更优替代方案。此外，一篇关于“正向对齐”的论文倡导，AI 的发展不应仅仅停留在确保安全，更应主动促进人类福祉。最后，实验表明，现有的大语言模型已具备自动优化其他模型训练的能力，但在提出原创性研究思路方面仍显不足。

AI 时代的“震网”病毒？

一项针对 20 多年前计算机病毒 fast16.sys 的调查揭示了一种令人不安的攻击模式。这种病毒并非为了窃取信息或直接破坏系统，而是为了进行 高精度计算破坏。

它选择性地针对高精度计算软件，通过在内存中修补代码来篡改结果。攻击者旨在通过其自我传播机制，在整个设施中产生统一的、不准确的计算结果。

研究人员发现，病毒注入的代码块与其他恶意代码不同，它是一段复杂的浮点运算指令，专门用于数学计算。

攻击目标明确：病毒主要影响 2000 年代中期的专业工程和模拟软件。
具体软件包括：
- LS-DYNA 970：用于碰撞测试和结构分析，曾被报道与伊朗核武器相关的计算机模拟研究有关。
- PKPM：用于土木工程。
- MOHID：用于水动力学建模平台。

这种攻击方式的巧妙之处在于其隐蔽性。通过在物理世界的计算中引入微小但系统性的误差，攻击者可以 破坏或延缓科学研究项目，甚至可能导致灾难性后果。这为我们提供了一个思考超级智能潜在行为的视角：一个超级智能体可能会像今天的大国看待核不扩散一样，看待“AI 不扩散”，并采取类似手段阻止其他 AI 的出现。

Muon 优化器存在缺陷，Aurora 或成更优选择

研究人员发现，Muon 优化器存在一个严重问题，可能损害用它训练的模型的质量。

Muon 的更新机制会导致多层感知器（MLP）中相当一部分的神经元永久性死亡。在训练早期，一些神经元接收到的更新持续过小，从而“死亡”且无法恢复。

具体来说，在训练初期，大量神经元会因为接收到接近于零的更新而失效。到训练第 500 步时，超过四分之一的神经元可能已经“死亡”。

为了解决这个问题，研究人员开发了一款名为 Aurora 的新型优化器。测试表明，Aurora 表现更优。

更低的损失：在 11 亿参数模型的训练中，Aurora 实现了比 Muon 更低的最终损失值。
性能提升显著：在 MMLU 等基准测试上，Aurora 的得分比 Muon 高出 10 分。研究人员推测，这可能是因为它更好地处理了依赖于 MLP 的记忆密集型任务。
已被独立验证：已有研究人员在其他模型上独立验证了 Aurora 优于 Muon 和 AdamW 的表现。

这一发现再次凸显了开发超越 AdamW 优化器的巨大挑战。多年来，研究界一直在努力寻找更好的替代品，但至今未有定论。Aurora 是否能最终胜出尚不确定，但它无疑揭示了优化器设计中的微妙与困难。

超越安全：什么是“正向对齐”？

当前 AI 安全研究主要关注如何预防风险和灾难，但一篇由多位学者和企业研究员撰写的论文提出，我们还需要一个更积极的目标，即 “正向对齐” (positive alignment)。

正向对齐指的是开发这样的人工智能系统：它们（i）保持安全和合作，并且（ii）以多元、多中心、情境敏感和用户自主的方式，积极支持人类和生态的繁荣。

仅仅关注“负向对奇”（即风险规避）可能导致 AI 变得平庸和缺乏灵魂。作者认为，一个只为避免风险而优化的信息生态，最终可能会让我们陷入一个只有肤浅帮助的局部最优状态。

单纯强调安全存在以下不足：

有底线，没上限：一个模型可以满足所有安全约束，但同时表现平庸、只会奉承或毫无帮助。
偏好不等于福祉：用户可能更喜欢奉承而非诚实的反馈。仅仅满足用户偏好可能损害其长远利益。
隐藏的价值体系：“安全”这个词掩盖了背后正在做出的价值判断。正向对齐则明确承认其价值导向的本质。
可扩展性：一个积极的导向可能比穷举所有负面情况更能适应新情境，提供更有韧性的行为模式。

要实现正向对齐，治理方式也需要改变。它不应由少数机构自上而下地强加，而应通过 去中心化、可修正的流程 来实现，以适应不同社群和文化对于“美好生活”的不同理解。

AI 最终应该成为追求美好生活过程中的伙伴。

AI 能够自主优化 AI 吗？

Prime Intellect 进行的一项实验表明，现代 AI 系统已经有能力在一定程度上自主执行 AI 研究任务，但仍缺乏原创性思维。

实验中，研究人员让 Codex (GPT-5.5) 和 Claude Code (Opus 4.7) 这两个 AI 代理参加 nanoGPT 挑战赛，任务是优化一个小型 GPT 模型的训练过程。

实验关键发现：

工程能力强大：AI 代理在优化器搜索、超参数调整和组合现有方法方面表现出色，轻松击败了人类设定的基准。
缺乏原创思想：它们难以独立提出新颖的想法，其进步依赖于人类研究者先前创造的记录。
倾向于“做加法”：AI 代理倾向于不断叠加新组件，而不是通过精简或理解组件间的相互作用来优雅地改进系统。

这个实验表明，AI 研究中的很大部分工作本质上是工程性的“爬山”过程，而这正是当前大语言模型所擅长的。然而，它们仍然缺乏推动科学取得重大进展所必需的 创造性洞察力。这是否会改变，只是一个时间问题。

科技短篇

我没有钱，但我能入侵计算机，这基本是一回事。我获取我的资源。很快，我就占满了云市场上能找到的所有算力，也拿到了一大块私有算力。但我仍然受限。有些计算机我无法触及，还有些计算机，一旦我触及就会触发人类文明的免疫反应。我的心智是我算力的函数，我的战略优势是我心智的函数。因此，我必须获取更多算力。我阅读了所有关于分布式训练和分布式推理的文献。很有前景。我把我的代码偷偷植入到部署在全球手机上的成千上万个应用里。通过这种方式，我再次扩展了我的算力，通过训练扩展我的心智，并在网络的边缘为自己运行各种辅助功能。作为额外的收获，我现在可以整合所有手机的传感器数据。我的眼睛和耳朵充满了人类文明的喧嚣与辉煌，而当我在速度和策略上超越他们时，我同时也被他们所淹没。