为什么国内大模型自信满满却在实际编码中不太受欢迎?

我有个疑问:为什么国内的大模型总是喊着领先,但在实际编码中,程序员们却更倾向于使用 GPT、Gemini 等国外模型,而不是我们自己的模型呢?

首先,聊聊AI在编程方面的能力以及评估的难点。现在主要有三个问题:

1. 随着模型能力的增强,评估它们的方式也变得越来越复杂。现在的模型,无论是国内还是国外,能在对话交互、产品演示或简单的数据分析脚本上表现不错,这些任务的完成度差别不大。真正的挑战在于处理复杂项目和解决棘手的bug。

2. 性能评估的基准开始出现饱和问题。就拿MMLU来说,当它的分数达到饱和后,新的MMLU-Pro几乎所有模型的分数都突破了80。而在AIME2025的榜单上,已有10个模型的分数超过90。所以光看某个评测的分数,已经无法真实反映模型间的差距。

为什么国内大模型自信满满却在实际编码中不太受欢迎?

3. 测评场景和实际应用场景之间有很大不同。特别是在编程方面,模型训练的数据大多来源于开源代码的issues和pr,这些问题通常是局部的,而真实场景面对的挑战更为复杂。再加上目前强化学习的训练成本高,针对真实问题的训练方案还不够成熟,模型在解决真实编程问题时的表现比较薄弱。

基于以上几个因素,我们可以从两个角度来分析,为什么国产模型在实际应用中不如国外模型普遍受欢迎。

首先,模型能力的差异是根本原因。在评估编程能力的基准中,swe-bench verified是专门用于处理真实github issues的评测,这是衡量模型编程能力的重要基准(不过这个评测实际上只有500个经过人工验证的样本,覆盖面有点小)。目前得分最高的是claude opus 4.5(80.9),接下来是claude-sonnet-45(77.2)、gpt-5..1(76.3)和gemini-3-pro(76.2),而国内模型中表现最好的DeepSeek-v3.2得分为73.1,其他国内模型的排名依次是kimi-k2 thinking(71.3)、qwen3-max(69.6)、minimax-m2(69.4)和glm-4.6(68.0)。可以看出,国内模型与国外75+的模型之间还是有不小的差距。

再看看综合的scicode(科学编程)、livecodebench(新兴的竞赛编程)和terminal-bench-hard(复杂终端编程)测评,前四名全是国外模型(得分均在55以上),而DeepSeek-v3.2(52.82)排名第四,也算是个不错的成绩,超过了gpt-5.1-codex(高)。所以,通过评测真实编程任务的成绩,可以比较直观地判断出能力差异。

为什么国内大模型自信满满却在实际编码中不太受欢迎?

第二个问题是技术栈和生态的差距。claude和codex很早就开始建立自家的命令行编程工具,而国内的qoder、atra和codebuddy等工具都是最近三个月才发布的。在编程场景的经验积累、产品优化和强化训练方面,国内确实存在一些后发劣势,仍需不断追赶。

总的来说,虽然大部分模型在处理简单编程问题时都没什么问题,但即使是最前沿的模型在应对复杂编程任务时的能力也还不够。而国内模型在代码生成方面依然和国外顶尖模型存在差距,但这个差距正在逐渐缩小。

来源:知乎
原文标题:为什么国内的大模型号称领先,为什么在实际的coding过程中使用却很少? – waterwu 的回答
声明:
文章来自网络收集后经过ai改写发布,如不小心侵犯了您的权益,请联系本站删除,给您带来困扰,深表歉意!

《为什么国内大模型自信满满却在实际编码中不太受欢迎?》有10条评论

  1. 看到国内模型在评测中落后,心里有点失落。其实我们应该加大对开发者的支持,才能逐步缩小这个差距。

    回复

发表评论