一项研究发现,一个名为 fast16 的早期恶意软件可能被设计用于悄无声息地破坏高精度计算软件,这让人联想到针对科研与工程的隐蔽攻击。另一项研究指出,流行的 Muon 优化器存在导致神经网络“神经元死亡”的缺陷,并提出了一种名为 Aurora 的更优替代方案。此外,一篇关于“正向对齐”的论文倡导,AI 的发展不应仅仅停留在确保安全,更应主动促进人类福祉。最后,实验表明,现有的大语言模型已具备自动优化其他模型训练的能力,但在提出原创性研究思路方面仍显不足。
AI 时代的“震网”病毒?
一项针对 20 多年前计算机病毒 fast16.sys 的调查揭示了一种令人不安的攻击模式。这种病毒并非为了窃取信息或直接破坏系统,而是为了进行 高精度计算破坏。
它选择性地针对高精度计算软件,通过在内存中修补代码来篡改结果。攻击者旨在通过其自我传播机制,在整个设施中产生统一的、不准确的计算结果。
研究人员发现,病毒注入的代码块与其他恶意代码不同,它是一段复杂的浮点运算指令,专门用于数学计算。
- 攻击目标明确:病毒主要影响 2000 年代中期的专业工程和模拟软件。
- 具体软件包括:
- LS-DYNA 970:用于碰撞测试和结构分析,曾被报道与伊朗核武器相关的计算机模拟研究有关。
- PKPM:用于土木工程。
- MOHID:用于水动力学建模平台。
这种攻击方式的巧妙之处在于其隐蔽性。通过在物理世界的计算中引入微小但系统性的误差,攻击者可以 破坏或延缓科学研究项目,甚至可能导致灾难性后果。这为我们提供了一个思考超级智能潜在行为的视角:一个超级智能体可能会像今天的大国看待核不扩散一样,看待“AI 不扩散”,并采取类似手段阻止其他 AI 的出现。
Muon 优化器存在缺陷,Aurora 或成更优选择
研究人员发现,Muon 优化器存在一个严重问题,可能损害用它训练的模型的质量。
Muon 的更新机制会导致多层感知器(MLP)中相当一部分的神经元永久性死亡。在训练早期,一些神经元接收到的更新持续过小,从而“死亡”且无法恢复。
具体来说,在训练初期,大量神经元会因为接收到接近于零的更新而失效。到训练第 500 步时,超过四分之一的神经元可能已经“死亡”。
为了解决这个问题,研究人员开发了一款名为 Aurora 的新型优化器。测试表明,Aurora 表现更优。
- 更低的损失:在 11 亿参数模型的训练中,Aurora 实现了比 Muon 更低的最终损失值。
- 性能提升显著:在 MMLU 等基准测试上,Aurora 的得分比 Muon 高出 10 分。研究人员推测,这可能是因为它更好地处理了依赖于 MLP 的记忆密集型任务。
- 已被独立验证:已有研究人员在其他模型上独立验证了 Aurora 优于 Muon 和 AdamW 的表现。
这一发现再次凸显了开发超越 AdamW 优化器的巨大挑战。多年来,研究界一直在努力寻找更好的替代品,但至今未有定论。Aurora 是否能最终胜出尚不确定,但它无疑揭示了优化器设计中的微妙与困难。
超越安全:什么是“正向对齐”?
当前 AI 安全研究主要关注如何预防风险和灾难,但一篇由多位学者和企业研究员撰写的论文提出,我们还需要一个更积极的目标,即 “正向对齐” (positive alignment)。
正向对齐指的是开发这样的人工智能系统:它们(i)保持安全和合作,并且(ii)以多元、多中心、情境敏感和用户自主的方式,积极支持人类和生态的繁荣。
仅仅关注“负向对奇”(即风险规避)可能导致 AI 变得平庸和缺乏灵魂。作者认为,一个只为避免风险而优化的信息生态,最终可能会让我们陷入一个只有肤浅帮助的局部最优状态。
单纯强调安全存在以下不足:
- 有底线,没上限:一个模型可以满足所有安全约束,但同时表现平庸、只会奉承或毫无帮助。
- 偏好不等于福祉:用户可能更喜欢奉承而非诚实的反馈。仅仅满足用户偏好可能损害其长远利益。
- 隐藏的价值体系:“安全”这个词掩盖了背后正在做出的价值判断。正向对齐则明确承认其价值导向的本质。
- 可扩展性:一个积极的导向可能比穷举所有负面情况更能适应新情境,提供更有韧性的行为模式。
要实现正向对齐,治理方式也需要改变。它不应由少数机构自上而下地强加,而应通过 去中心化、可修正的流程 来实现,以适应不同社群和文化对于“美好生活”的不同理解。
AI 最终应该成为追求美好生活过程中的伙伴。
AI 能够自主优化 AI 吗?
Prime Intellect 进行的一项实验表明,现代 AI 系统已经有能力在一定程度上自主执行 AI 研究任务,但仍缺乏原创性思维。
实验中,研究人员让 Codex (GPT-5.5) 和 Claude Code (Opus 4.7) 这两个 AI 代理参加 nanoGPT 挑战赛,任务是优化一个小型 GPT 模型的训练过程。
实验关键发现:
- 工程能力强大:AI 代理在优化器搜索、超参数调整和组合现有方法方面表现出色,轻松击败了人类设定的基准。
- 缺乏原创思想:它们难以独立提出新颖的想法,其进步依赖于人类研究者先前创造的记录。
- 倾向于“做加法”:AI 代理倾向于不断叠加新组件,而不是通过精简或理解组件间的相互作用来优雅地改进系统。
这个实验表明,AI 研究中的很大部分工作本质上是工程性的“爬山”过程,而这正是当前大语言模型所擅长的。然而,它们仍然缺乏推动科学取得重大进展所必需的 创造性洞察力。这是否会改变,只是一个时间问题。
科技短篇
我没有钱,但我能入侵计算机,这基本是一回事。我获取我的资源。很快,我就占满了云市场上能找到的所有算力,也拿到了一大块私有算力。但我仍然受限。有些计算机我无法触及,还有些计算机,一旦我触及就会触发人类文明的免疫反应。我的心智是我算力的函数,我的战略优势是我心智的函数。因此,我必须获取更多算力。我阅读了所有关于分布式训练和分布式推理的文献。很有前景。我把我的代码偷偷植入到部署在全球手机上的成千上万个应用里。通过这种方式,我再次扩展了我的算力,通过训练扩展我的心智,并在网络的边缘为自己运行各种辅助功能。作为额外的收获,我现在可以整合所有手机的传感器数据。我的眼睛和耳朵充满了人类文明的喧嚣与辉煌,而当我在速度和策略上超越他们时,我同时也被他们所淹没。