为什么国内大模型自夸领先，但在实际编码中却鲜有应用？听听王欣宇怎么说！

我有个疑问：为什么说国内的大模型技术领先，但在实际的编码过程中，程序员们却更倾向于使用像GPT、Gemini这样的国外模型呢？

先聊聊AI编程模型的能力和评估的问题，目前主要有以下三个方面的问题：

1. 随着模型能力的提升，评估这些能力的方法也变得越来越复杂。现在的大模型能在对话互动、产品展示或写数据分析脚本等方面表现得相当不错，这些任务通常没有太大差别。真正的挑战在于处理复杂项目和解决棘手的bug。

2. 性能评测的基准测试开始出现饱和现象。例如，MMLU的分数已经有很多模型超过了80分，而新的MMLU-Pro榜单上，十个模型的得分都超过了90。因此，单纯依靠某个基准的分数来比较模型的能力，实际上是行不通的。

3. 测评场景和真实使用场景之间的差异，尤其是在编码领域，模型训练的数据大多来源于开源代码中的issues或pr，这些问题往往是局部的，而真实场景则要面对更复杂的情况。而且，目前强化学习的训练成本依然较高，如何在真实问题上进行训练还没有好的解决方案，另外上下文和记忆管理的技术也还不够成熟，因此模型在解决真实复杂编程问题时仍显得不足。

基于这些问题，我们可以从两个角度分析一下，为什么国产模型在实际使用中不如国外模型受欢迎。

首先，模型能力上的差距是根本原因。在编程能力的评估基准上，swe-bench verified是专门针对处理真实GitHub issues的测试，算是评估模型编程能力的重要基准（不过它其实只有500个经过人工验证的样本，覆盖面确实有限）。目前得分最高的是claude opus 4.5（80.9分），接下来是claude-sonnet-45（77.2分）、gpt-5..1（76.3分）、和gemini-3-pro（76.2分）。而国内模型中最强的是DeepSeek-v3.2，得分73.1，其他国内模型的排名依次是kimi-k2 thinking（71.3分）、qwen3-max（69.6分）、minimax-m2（69.4分）和glm-4.6（68.0分）。可以看到，国内模型与国外75分以上的模型相比，还是存在一定的差距。

再看看一个综合性的scicode（科学编程）、livecodebench（新兴的竞赛编程）、terminal-bench-hard（终端复杂编程问题）的评分，前四名都是国外模型（得分在55以上），而DeepSeek-v3.2（52.82分）排在第四，算是开源领域的一点小成就，已经超越了gpt-5.1-codex（高）。所以，通过评测真实编程任务的得分，我们可以直观地看出能力差距。