为什么国内大模型明明领先，却在编码时却很少用？真是让人疑惑！

最近我在想一个问题：为什么国内的AI大模型总是说自己很领先，但在实际写代码的时候，程序员却更倾向于用像GPT、Gemini这样的国外模型呢？

先来聊聊AI编程模型的能力，以及我们该如何评估它们。现在主要有三个问题：

你可能感兴趣：你知道吗？Trae和加了CodeGeeX的VSCode到底哪个更胜一筹？来看看我们的横向测评吧！

1. 随着模型能力的提升，评估这些能力的方法也变得更加复杂。如今的AI模型，简单地进行对话、做个产品展示或者写个数据分析脚本，基本上各大模型都能做到不错，这些任务上并没有太明显的差距。真正考验模型的，还是在处理复杂项目和棘手bug时的表现。

2. 评价标准开始出现饱和的问题。比如MMLU这个标准用久了之后，升级版的MMLU-Pro中大部分模型的分数都超过了80，而AIME2025的榜单上已经有10个模型的分数超过了90分。因此，单纯看某个标准的得分，已经不能很好地反映模型之间的真实差距了。

3. 测试场景与实际应用场景有很大不同，尤其是在编程领域。模型训练的数据大多来源于开源代码的issues或者pr，这些问题往往是局部性的，而真实场景则复杂得多。此外，现在的强化学习训练成本仍然偏高，导致对真实问题的训练和复现还没有找到很好的解决办法，加上上下文和记忆管理还不够成熟，因而模型在解决实际编码问题时的能力仍显得不足。

基于这些情况，我们可以从两个方面来分析，为什么国产模型在实际使用中不如国外模型普遍。

首先，模型的能力差距还是个关键因素。在评估编程能力的标准中，swe-bench verified是专门针对处理真实GitHub问题的测试，这对评估模型的编程能力至关重要（不过实际上只有500个经过人工验证的样本，这也显示了评测覆盖度的不足）。目前排名最高的是claude opus 4.5（80.9分），紧随其后的是claude-sonnet-45（77.2），gpt-5..1（76.3），gemini-3-pro（76.2）。而国内模型中最强的是DeepSeek-v3.2，得分73.1，其他的国内模型依次是kimi-k2 thinking（71.3），qwen3-max（69.6），minimax-m2（69.4），glm-4.6（68.0）。由此可见，国内模型与75+的国外模型相比，仍有明显差距。

再看一下综合的scicode（科学编程）、livecodebench（相对较新的编程竞赛）、terminal-bench-hard（终端复杂编程问题）的coding index评测，前四名都是国外模型（分数55以上），DeepSeek-v3.2得分52.82，排在第四，算是开源中的一桩小成就，超越了gpt-5.1-codex（高分）。因此，通过这些真实编程任务的评测成绩，我们可以直观地判断出模型之间的能力差距。