Kimi K2:开源新玩法

中国初创公司月之暗面 (Moonshot AI) 发布了其开源大语言模型 Kimi K2。该模型基于 Mixture-of-Experts (MoE) 架构,参数规模达到万亿级别,并在多项基准测试中超越了竞争对手。K2 的核心理念源于创始人杨植麟对长上下文的坚信,认为这是实现通用人工智能 (AGI) 的关键。通过对 DeepSeek V3 架构的借鉴和改进,并利用大量合成数据进行训练,K2 被打造成一个强大的“智能代理”,能够处理复杂任务和调用工具。K2 的成功不仅展示了中国 AI 实验室多元化的发展路径和开源文化的价值,也预示着未来 AI 交互体验将超越传统聊天机器人,同时对西方的 AI 开源生态构成了新的挑战。

月之暗面的愿景与现实

月之暗面的创始人杨植麟是一位拥有清华大学、卡内基梅隆大学、Meta 及谷歌背景的技术专家。与竞争对手 DeepSeek 不同,月之暗面不设 B2B 业务,而是直接面向个人用户,其核心卖点始终是长上下文处理能力

杨植麟认为,AI 架构的演进史本质上就是一部有效上下文长度的增长史。

要实现 AGI,长上下文将是一个至关重要的因素。所有问题本质上都是一个长上下文问题——历史上架构的演变,根本上就是为了增加有效的上下文长度。

尽管月之暗面获得了阿里巴巴等知名机构的投资,但也面临着传统科技创业公司普遍存在的投资者压力。它不像由对冲基金支持的 DeepSeek 那样可以不受约束地进行研究。然而,即便在这种压力下,月之暗面依然成功打造出了一款顶级的开源模型,这证明了中国前沿 AI 实验室走向成功的道路并非只有一种模式。

    • 多元化路径:中国 AI 实验室不必复制完全相同的招聘、融资或工作模式也能创造出世界级模型。
    • 算法创新:普遍存在的算力限制,反而激励了中国研究团队追求新颖的算法研究。

站在巨人的肩膀上:从 DeepSeek V3 到 K2

K2 的诞生离不开 DeepSeek V3 的开源贡献。月之暗面的工程师在社交平台知乎上坦诚,K2 在架构上很大程度借鉴了 DeepSeek V3 的技术报告,并做出了四项关键改进:

    • 将专家数量从 256 个提升至 384 个,因为团队发现稀疏模型的规模效应依然有效。
    • 减少注意力头的数量,以补偿专家数量增加带来的计算开销。
    • 仅保留第一层为密集层,其余全部采用 MoE 架构,以最大化其效益。
    • 将所有专家置于一个组内。

月之暗面的工程师刘少伟解释了为何选择借鉴而非“为了创新而创新”:

V3 架构已经被验证在超大规模下依然有效,而我们提出的“新架构”还没有经过充分的大规模验证。考虑到已经存在优化器和模型尺寸这两个巨大变量,我们不想再引入更多未经证实的变量。

这种技术上的继承和公开致敬,体现了开源文化的价值。尽管在商业上是竞争对手,但月之暗面的工程师对 DeepSeek 团队表达了极大的尊重。DeepSeek 的成功,为中国 AI 创业者证明了开源的巨大价值。

什么是“智能代理”?

月之暗面将 K2 称为“开放的智能代理”。这一定位的核心是通过大规模合成数据进行训练,使其擅长理解并执行真实世界中的复杂任务。

工程师 Flood Sung 解释了其训练过程:

    • 生成场景:首先让模型生成数百个真实场景,如外卖、社交媒体等。
    • 生成工具:基于场景生成数千种工具,如点餐、发帖、查找联系人等。
    • 生成代理:通过不同的工具组合,生成数十万个具备不同个性和风格的“代理”。
    • 模拟交互:设计从简单到复杂的任务,让模拟用户与代理互动。代理调用的工具也由一个“世界模型”进行模拟和反馈。
    • 筛选数据:根据任务完成情况评估交互质量,将优质的交互数据储存起来用于模型训练。

简而言之,K2 的“智能”并非空谈,而是通过模拟真实应用和工具调用,进行了针对性的优化

开源的价值与未来方向

月之暗面工程师 Justin Wong 认为,开源的逻辑非常简单:性能优先

开源意味着你不能再依靠表面的技巧或花招来迷惑用户。任何拿到相同权重的人都应该能轻松复现你的性能——只有这样才算真正有效。

开源不仅为月之暗面带来了社区的关注和技术生态的完善,更重要的是,它迫使团队以更高的技术标准要求自己,从而推动模型向着 AGI 的目标前进。

在未来,团队希望摆脱对现有架构的依赖,开创自己的可扩展方法。同时,他们也计划改变用户与 AI 的交互方式。

你与 AI 的交互过程,不应只是输出一段内容,而是理解用户需求后,立刻启动一个小项目或交付一个前端应用……对于不懂编程的用户来说,这就变成了‘我和 AI 对话,它就给我做了一个 PPT/画了一个流程图/写了一个小游戏’。这是一种完全优于传统聊天机器人的体验。

K2 的影响与挑战

K2 的发布表明,DeepSeek 的成功并非个例。它为百度、腾讯等寻求 AI 集成的互联网大厂提供了又一个高性价比的选择。同时,它也对西方 AI 实验室在开源领域的话语权构成了挑战

然而,K2 也面临着中国模型普遍存在的挑战,即内容审查。在与 K2 的对话中,涉及敏感政治话题时,模型会回避或给出受限的回答。不过,像 Perplexity 这样的平台已宣布将对 K2 进行后训练,这意味着未来可能会出现一个无审查版本的 K2,供全球用户使用。

Kimi 的创作能力一览

K2 在创意写作等基准测试中表现出色,其文风被认为清新、词汇丰富且叙事连贯。

古典诗词创作

提示: 写一首有关旧金山城市风光的唐诗

Kimi 回应:

《旧金山月夜》(七言律诗)

金门月色映潮生,雾锁长桥万户明。

丹楼影动渔灯乱,碧海波摇客梦惊。

风回酒肆胡姬笑,雨过花街锦绣成。

谁倚高台观夜景?钟声一杵落云城。

英文短篇故事创作

提示: 用大卫·福斯特·华莱士的风格,写一个 500 字的关于中美交易稀土换 H20 芯片的故事。

Kimi 创作了一个充满讽刺和官僚主义细节的短篇故事,讲述了美国官员与中国官员就交换 H₂O 神经形态芯片和稀土氧化物进行谈判。故事精准地捕捉了华莱士的风格,描绘了交易背后的荒谬感和语言游戏,并以一个深刻的洞见结尾:“交换的根本不是材料,而是‘材料可以被交换’这个叙事本身。故事,才是真正的商品。”