马斯克亲自点赞,Kimi竟然挑战了十一年无人敢碰的禁区!

马斯克亲自点赞,Kimi竟然挑战了十一年无人敢碰的禁区!

最近,科技博主Avi Chawla在X平台上发了一篇长文,深入分析了月之暗面Kimi团队刚刚发布的技术报告。

没过多久,马斯克就在评论区回复了:“月之暗面做出了令人印象深刻的成果!”(Impressive work from Kimi.)

马斯克亲自点赞,Kimi竟然挑战了十一年无人敢碰的禁区!

大家都知道,马斯克对人工智能的看法一向比较挑剔,他曾多次批评Anthropic和OpenAI,甚至还直言Anthropic的标志像什么器官。

而他的xAI最近也在经历大规模的重组,不少华人联合创始人离职,Grok的表现也不太理想。

所以,他在这个关键时刻主动称赞一家中国AI公司的技术论文,确实让人有些意外。

说到马斯克点赞的这项成果,其实有点复杂,因为它并不是一个具体的模型。

Kimi团队提出了一种新的方法,试图替换掉Transformer架构中一个自2015年以来几乎无人问津的基本组件。

这篇论文实际上是纯粹从架构上进行的技术探讨。

尽管普通用户可能不会直接感受到这篇论文的影响,但实际上,它触及了深度学习的根基。

01

月之暗面到底改了什么

想要理解这篇论文的内容,得先了解一些背景信息。现在的主流大语言模型,比如GPT、Claude,甚至国内的豆包、DeepSeek,和Kimi的K2.5,底层架构都是基于Transformer。

Transformer之所以能训练到几十层甚至上百层而不出问题,关键在于一个叫“残差连接(Residual Connection)”的机制。

其实,残差连接的原理很简单。

每一层经过计算后,会把自己的输出和输入加在一起,再传递给下一层。这样做的好处是什么呢?就是在反向传播时,梯度可以沿着一条“高速公路”直达底层,不会因为层数太多而消失。

这个设计最早源于何恺明在2015年参与的ResNet论文,后来Transformer就直接继承了这个设计。

不过,这里有一个不容忽视的问题,这种“加法”是完全平等的。

第一层和第四十层的输出在最终的隐藏状态中享有同等的权重,都是1。没有机制来判断哪一层的信息更重要,哪一层的贡献可以忽略。随着层数的增加,隐藏状态的数值会线性增长,早期层的信息会逐渐被稀释,后面的层想要产生影响就必须输出更大的数值,这反而加剧了不稳定性。

举个例子,就像我们在微信群里讨论晚餐吃什么,每个人的发言权重完全一样,不管有道理还是胡扯,最后群主只能从头到尾读一遍,结果越翻越记不住前面说了啥。

这个现象在学术界被称为“PreNorm稀释”。

Kimi团队发现,这个问题与早年RNN面临的困境有着结构上的相似之处。

RNN在时间维度上进行固定权重的累加,每个时间步的信息被等权地压缩到同一个隐藏状态,这导致长距离依赖难以捕捉。后来Transformer用注意力机制替代了RNN这种线性累加,使得模型可以根据内容动态选择关注序列中的哪些部分,这才有了如今的各种进展。

两者的区别在于,RNN就像上课,老师讲到哪你就听到哪,只能从头听到尾,没记住的得看笔记或重听。而Transformer则像录播课程,可以随时翻回去查看重要内容。

但在深度维度上,同样的问题依然存在,却没有人用类似的方法去解决。每一层的输出仍然是被等权相加,模型没有能力根据当前的输入有选择地提取信息,忽略其他层。

Kimi团队认为,标准的残差连接实际上是“深度维度上的线性注意力”,而他们的目标是将其升级为“深度维度上的softmax注意力”。

因此,他们提出了一个“理想版”的方案,称为全注意力残差(Full Attention Residuals)。

马斯克亲自点赞,Kimi竟然挑战了十一年无人敢碰的禁区!

具体做法是给每一层一个可学习的查询向量,这个向量会对之前所有层的输出进行注意力计算,产生一组归一化的权重。

然后,当前层的输入就不再是之前所有层输出的简单求和,而是按照这组权重进行加权组合。这个权重是与输入相关的,也就是说,不同的token在经过同一层时,可能会从不同的历史层中提取不同的信息。

再用微信群的例子,现在群主不用从头到尾翻聊天记录了,有个助手帮他标出“这几条最值得看”,不同的话题也会标出不同的重点消息。

不过,理想是丰满的,现实却是骨感,全注意力残差这个方案实际上并不是那么容易实现。

在大规模训练时,模型通常会采用流水线并行和激活重计算以节省显存,这意味着之前层的输出不会保留在内存里。

如果要实现全注意力,就得把所有层的输出都存下来并在不同阶段之间传递,这样内存和通信开销就会变得不可接受。

为了应对这个问题,Kimi团队提出了块注意力残差(Block Attention Residuals)。

马斯克亲自点赞,Kimi竟然挑战了十一年无人敢碰的禁区!

这个思路是将所有层分成若干个块,每个块内部依然使用传统的残差连接进行求和,但块与块之间则使用注意力机制进行选择性聚合。这样需要存储和传输的就不再是每一层的输出,而是每个块的汇总表示,内存占用从 O(Ld)降低到 O(Nd),其中 N 是块的数量,通常只有8个左右。

这就好比把刚才那个微信群分成了八个小组,每组先讨论出一个结论,群主只需看八条小组总结就行。

在此基础上,他们还进行了多项工程优化。

例如,跨阶段缓存消除了流水线并行中的冗余传输,而两阶段推理策略则通过在线softmax将跨块注意力的计算分摊到各个块的处理过程中。最终的结果是,注意力残差作为标准残差连接的替代方案,训练时的额外开销很小,推理时的延迟增加不到2%。

Kimi团队还进行了两个实验。

第一个是scaling law实验,验证这个改进在不同模型规模下是否一致有效。结果显示,在所有计算预算下,注意力的表现都优于基线,相当于用1.25倍的计算量训练出的基线模型。

第二个是Kimi用自己的大模型进行实战验证。这个模型的参数量达到480亿,使用超过一万亿个词的数据进行了完整的预训练。然后,在科学问答、数学推理、代码生成、综合知识等一系列主流测试中,采用块注意力残差的版本全面超过了没有采用的版本。

马斯克亲自点赞,Kimi竟然挑战了十一年无人敢碰的禁区!

融资风波与马斯克的点赞,月之暗面面临的挑战

从训练的动态来看,块注意力残差的确帮助解决了PreNorm稀释的问题。各层的输出幅度不再随着深度增加而线性上升,而是保持在一个比较稳定的范围内。同时,梯度的分布也变得更加均匀,避免了浅层梯度过大而深层梯度过小的不平衡现象。

另外,论文中还进行了一个统一的结构化矩阵分析,说明了标准的残差连接和之前的各种变体(像是Highway Networks、DeepNet的scaled residuals等)其实都是深度维度上的线性注意力的一种特例。

简单来说,自从2015年ResNet问世以来,残差连接的技术没有实质性进展。而Kimi的这篇论文则是首个同时具备理论依据和广泛实际应用的低成本方案。

正是因为这个结论,马斯克才对Kimi表示了赞赏。

02

融资、争议与马斯克的赞扬

月之暗面正处于一个微妙的节点——准备上市。

到2025年12月底,月之暗面完成了5亿美元的C轮融资,投后估值达到了43亿美元。两个月后,又完成了超过7亿美元的C+轮融资,由阿里、腾讯和五源资本等老股东共同领投,投后估值一举突破100亿美元。

到了3月中旬,月之暗面的最新投前估值已经攀升至180亿美元,并且新一轮的10亿美元融资正在进行中,短短三个月内估值增长了四倍。

实际上,月之暗面的收入增长非常迅速,Kimi K2.5模型发布不到一个月,累计收入就超越了2025年全年的总收入。

根据全球支付平台Stripe的数据,Kimi的个人订阅用户在1月份的支付订单量环比增长了8280%,2月份又增长了123.8%,已经跻身Stripe全球榜单的前十。

不过,融资的顺利并不意味着没有争议。

就在几天前,OpenClaw的创始人彼得·斯坦伯格公开对月之暗面的Kimi Claw产品表示质疑。事情的起因是月之暗面推出了OpenClaw的云端一键部署服务Kimi Claw,这与OpenClaw的设计理念相悖。

有用户在X平台上询问这个产品是否值得尝试,并提到了斯坦伯格。斯坦伯格的回应非常直接:他们是否把安全文档作为必读项展示给用户呢?

马斯克亲自点赞,Kimi竟然挑战了十一年无人敢碰的禁区!

斯坦伯格的主要担忧在于,OpenClaw的逻辑是“本地优先”,也就是说,agent是在用户自己的设备上运行,数据不会经过任何第三方。驱动它的大模型只是提供操作指令,而不涉及用户数据。

而Kimi Claw恰恰相反,它将数据放在了云端,也就是月之暗面的服务器上。在安全和隐私方面,这两种模式的风险等级完全不同。

斯坦伯格对Kimi Claw的质疑在社区中引起了反响。

最初询问斯坦伯格的那位X用户随后发文表示,考虑到斯坦伯格提到的安全性问题,他决定暂时不使用这个产品。

对于正在快速融资的月之暗面,来自OpenClaw创始人的公开批评,可能会在海外技术社区中引发一些负面情绪。

然后,马斯克的回复出现了。

尽管这两件事情看似没有关联,但在舆论上,它们不可避免地被放在了一起讨论。

一方面是OpenClaw创始人对月之暗面产品的安全质疑,另一方面是马斯克对月之暗面研究论文的公开认可。

对于正在进行新一轮融资的月之暗面来说,后者的时机恰到好处。在资本市场的逻辑中,这种顶级人物的认可,往往比任何分析报告都更加有说服力。

当然,我们也不应该过度解读马斯克的一条推文。他在X上的互动非常频繁,涉及各种技术话题都会随便评论,一句“impressive”并不意味着他会投资月之暗面或在xAI中采用他们的方法。

但是无论如何,马斯克的那条回复发出后,很多原本对架构研究不太关注的人也开始去翻阅这篇论文。一个长达十一年没人碰过的组件被重新提起,接下来会发生什么,谁也无法预知。

来源:百家号
原文标题:马斯克亲自点赞,Kimi动了十一年没人敢碰的东西
声明:
文章来自网络收集后经过ai改写发布,如不小心侵犯了您的权益,请联系本站删除,给您带来困扰,深表歉意!

《马斯克亲自点赞,Kimi竟然挑战了十一年无人敢碰的禁区!》有10条评论

发表评论