我有个疑问:为什么说国内的大模型技术领先,但在实际的编码过程中,程序员们却更倾向于使用像GPT、Gemini这样的国外模型呢?
先聊聊AI编程模型的能力和评估的问题,目前主要有以下三个方面的问题:
1. 随着模型能力的提升,评估这些能力的方法也变得越来越复杂。现在的大模型能在对话互动、产品展示或写数据分析脚本等方面表现得相当不错,这些任务通常没有太大差别。真正的挑战在于处理复杂项目和解决棘手的bug。
2. 性能评测的基准测试开始出现饱和现象。例如,MMLU的分数已经有很多模型超过了80分,而新的MMLU-Pro榜单上,十个模型的得分都超过了90。因此,单纯依靠某个基准的分数来比较模型的能力,实际上是行不通的。

3. 测评场景和真实使用场景之间的差异,尤其是在编码领域,模型训练的数据大多来源于开源代码中的issues或pr,这些问题往往是局部的,而真实场景则要面对更复杂的情况。而且,目前强化学习的训练成本依然较高,如何在真实问题上进行训练还没有好的解决方案,另外上下文和记忆管理的技术也还不够成熟,因此模型在解决真实复杂编程问题时仍显得不足。
基于这些问题,我们可以从两个角度分析一下,为什么国产模型在实际使用中不如国外模型受欢迎。
首先,模型能力上的差距是根本原因。在编程能力的评估基准上,swe-bench verified是专门针对处理真实GitHub issues的测试,算是评估模型编程能力的重要基准(不过它其实只有500个经过人工验证的样本,覆盖面确实有限)。目前得分最高的是claude opus 4.5(80.9分),接下来是claude-sonnet-45(77.2分)、gpt-5..1(76.3分)、和gemini-3-pro(76.2分)。而国内模型中最强的是DeepSeek-v3.2,得分73.1,其他国内模型的排名依次是kimi-k2 thinking(71.3分)、qwen3-max(69.6分)、minimax-m2(69.4分)和glm-4.6(68.0分)。可以看到,国内模型与国外75分以上的模型相比,还是存在一定的差距。
再看看一个综合性的scicode(科学编程)、livecodebench(新兴的竞赛编程)、terminal-bench-hard(终端复杂编程问题)的评分,前四名都是国外模型(得分在55以上),而DeepSeek-v3.2(52.82分)排在第四,算是开源领域的一点小成就,已经超越了gpt-5.1-codex(高)。所以,通过评测真实编程任务的得分,我们可以直观地看出能力差距。

第二个问题是关于编码代理的技术栈和生态差异。claude和codex早就开始搭建基于自己模型的命令行编程工具,而国内的qoder、atra、codebuddy等工具则是最近三个月才推出的。在编码场景的经验积累、产品优化以及强化训练方面,国内模型确实存在一定的后发劣势,需要不断追赶。
总体来看,大多数模型在处理简单编程问题时都没有什么障碍,但即使是最前沿的模型,其能力也还没达到解决真实复杂编程问题的水平。而国内模型的编程能力与国外顶尖模型仍有差距,不过这个差距正在逐步缩小。











王欣宇提到的编码代理技术栈确实是个关键点,国内还需努力。
对于国内模型来说,如何快速建立自己的生态系统是个不小的挑战,尤其是在工具的开发上。
国内模型在命令行工具的开发上起步比较晚,确实影响了应用普及。
国内模型的生态建设滞后,导致实际应用中很难与国外模型竞争,这个问题亟待解决。
有没有考虑到国内模型在特定领域的应用呢?可能在某些行业中,它们的表现并不逊色。
国内模型在命令行工具上落后,真心希望能早日弥补!
国内模型在生态建设上需要加快速度,才能真正与国外竞争,特别是在编码代理方面。