国产平替能否撼动Claude的霸主地位？

机器之心报道

作者：冷猫、杜伟

最近，全球的 AI 代码生成领域正在经历一个重要的变化。

曾经被认为是行业领头羊的 Anthropic，现在似乎在逐渐失去它的光环，位置也变得不太稳固。

这其中一大原因就是 OpenAI 的 GPT-5 系列正在迅速崛起，在与 Claude Code 的较量中展现出了强大的后发优势，连 AI 大牛 Karpathy 都开始推荐 GPT-5 Pro 的卓越编码能力。

而另一方面，Anthropic 自己的一些奇怪举措也让人感到困惑，首先是承认自家模型（包括 Claude Opus 4.1 和 Opus 4）智力下降，这周又对包括中国在内的部分地区限制了其 AI 产品和服务的使用。

在这个微妙的时刻，许多国产大模型企业开始了对 Anthropic 的直接挑战。比如，月之暗面推出了 Kimi-K2-0905 版本，而阿里则发布了超万亿参数的 Qwen3-Max-Preview。

Kimi-K2-0905 是 Kimi-K2 系列的最新版本，上下文长度已经扩展到 256k，并且在前端开发等实际编程任务上进行了优化，长代码生成的正确性、稳定性及逻辑一致性都比之前的版本有了明显提升。而阿里的模型也是目前最大的，支持更广泛的知识、数学推理和编程任务。

可以看出，国产大模型厂商最近在代码生成方面加大了投入。Kimi-K2-0905 特别强调了工具调用能力，并且提升了与 Agent 框架（例如 Roo Code）的兼容性。

在使用此模型调用外部工具时，正确率已经达到了 100%，不再需要人工干预。而且它完全兼容 Anthropic 的 API，接入和迁移都很方便。通过支持 WebSearch Tool，能够实时获取信息，从而提升任务的效果。

自从 0905 版本发布以来，Kimi-K2 系列模型在 Hugging Face 上的下载量已经突破了 39 万。

国产大模型新秀Kimi-K2-0905：打破长任务的烦恼

最近，关于 Kimi-K2-0905 的讨论热火朝天，很多人都表示：“终于不再为处理那些复杂的长任务而头疼了！”这几乎是大家心声的反映，没错吧？

随着国产大模型在代码生成领域的不断发展，竞争的格局似乎也开始出现变化，谁知道未来会如何呢？

国产大模型双重优势：性能与价格并存

作为 Kimi K2 系列的最新版本，Kimi-K2-0905 不仅在性能上有所提升，还向其他新兴模型（比如 Qwen3-Max-Preview）发起挑战，力求在智能编程领域脱颖而出。

从技术角度分析，Kimi-K2-0905 采用了当下流行的 MoE 结构，其参数规模达到了万亿级，推理时实际调用的参数则为 320 亿，简直是个庞然大物！

一起来看看Kimi-K2-0905的实力吧！

参数概览

通过与 Claude Sonnet 4 在 SWE-bench Verified 等真实编程基准的比较，Kimi-K2-0905 在某些测试场景下，比如多语言环境和命令行交互，表现得甚至比它更出色。

那么，它实际的表现怎么样呢？我们决定进行一个经典小游戏的测试。

指令非常简单：“做一个跟微信打飞机类似的网页小游戏，要美观、好玩且功能齐全。”

Kimi-K2-0905 生成的游戏代码（部分截图）

网页小游戏大揭秘，真的是太酷了！

说真的，这个网页上的效果真心让人惊艳！不仅有一片浩瀚的星空作为背景，玩起来时那种快速移动的拖影效果也很赞哦。还有偶尔出现的回血道具，能让你续命，敌人爆炸时不同颜色的效果也是一大亮点。如果你玩得不错，甚至还能拿到连击加分，简直让人爱不释手。

我们尝试了好一段时间，发现困难模式真的不简单，挑战性十足呢。

有一位知名博主「karminski – 牙医」也做了测试，表示Kimi-K2-0905在前端的表现真是提升明显，空间理解和召回能力都增强了不少。

在进行「鞭炮连锁爆炸测试」时，Kimi-K2-0905的表现更是让人惊喜，轻松生成了超过一千行的代码，真是太厉害了！

原贴地址：点击查看

Kimi-K2-0905 在 API 定价方面也展现了很强的竞争力。

听说 Kimi 的开放平台上推出了 kimi-k2-0905-preview 模型的 API，它的定价与之前的版本保持一致，收费标准是：当缓存未命中时，每百万个输入 tokens 收费 4 元；如果缓存命中，每百万个输入 tokens 收费 1 元，而每百万个输出 tokens 则是 16 元。具体的定价信息可以参考下方的图片：