为什么国内大模型自夸领先,但在实际编码中却鲜有应用?听听王欣宇怎么说!

我有个疑问:为什么说国内的大模型技术领先,但在实际的编码过程中,程序员们却更倾向于使用像GPT、Gemini这样的国外模型呢?

先聊聊AI编程模型的能力和评估的问题,目前主要有以下三个方面的问题:

1. 随着模型能力的提升,评估这些能力的方法也变得越来越复杂。现在的大模型能在对话互动、产品展示或写数据分析脚本等方面表现得相当不错,这些任务通常没有太大差别。真正的挑战在于处理复杂项目和解决棘手的bug。

2. 性能评测的基准测试开始出现饱和现象。例如,MMLU的分数已经有很多模型超过了80分,而新的MMLU-Pro榜单上,十个模型的得分都超过了90。因此,单纯依靠某个基准的分数来比较模型的能力,实际上是行不通的。

为什么国内大模型自夸领先,但在实际编码中却鲜有应用?听听王欣宇怎么说!

3. 测评场景和真实使用场景之间的差异,尤其是在编码领域,模型训练的数据大多来源于开源代码中的issues或pr,这些问题往往是局部的,而真实场景则要面对更复杂的情况。而且,目前强化学习的训练成本依然较高,如何在真实问题上进行训练还没有好的解决方案,另外上下文和记忆管理的技术也还不够成熟,因此模型在解决真实复杂编程问题时仍显得不足。

基于这些问题,我们可以从两个角度分析一下,为什么国产模型在实际使用中不如国外模型受欢迎。

首先,模型能力上的差距是根本原因。在编程能力的评估基准上,swe-bench verified是专门针对处理真实GitHub issues的测试,算是评估模型编程能力的重要基准(不过它其实只有500个经过人工验证的样本,覆盖面确实有限)。目前得分最高的是claude opus 4.5(80.9分),接下来是claude-sonnet-45(77.2分)、gpt-5..1(76.3分)、和gemini-3-pro(76.2分)。而国内模型中最强的是DeepSeek-v3.2,得分73.1,其他国内模型的排名依次是kimi-k2 thinking(71.3分)、qwen3-max(69.6分)、minimax-m2(69.4分)和glm-4.6(68.0分)。可以看到,国内模型与国外75分以上的模型相比,还是存在一定的差距。

再看看一个综合性的scicode(科学编程)、livecodebench(新兴的竞赛编程)、terminal-bench-hard(终端复杂编程问题)的评分,前四名都是国外模型(得分在55以上),而DeepSeek-v3.2(52.82分)排在第四,算是开源领域的一点小成就,已经超越了gpt-5.1-codex(高)。所以,通过评测真实编程任务的得分,我们可以直观地看出能力差距。

为什么国内大模型自夸领先,但在实际编码中却鲜有应用?听听王欣宇怎么说!

第二个问题是关于编码代理的技术栈和生态差异。claude和codex早就开始搭建基于自己模型的命令行编程工具,而国内的qoder、atra、codebuddy等工具则是最近三个月才推出的。在编码场景的经验积累、产品优化以及强化训练方面,国内模型确实存在一定的后发劣势,需要不断追赶。

总体来看,大多数模型在处理简单编程问题时都没有什么障碍,但即使是最前沿的模型,其能力也还没达到解决真实复杂编程问题的水平。而国内模型的编程能力与国外顶尖模型仍有差距,不过这个差距正在逐步缩小。

来源:知乎
原文标题:为什么国内的大模型号称领先,为什么在实际的coding过程中使用却很少? – 王欣宇 的回答
声明:
文章来自网络收集后经过ai改写发布,如不小心侵犯了您的权益,请联系本站删除,给您带来困扰,深表歉意!

《为什么国内大模型自夸领先,但在实际编码中却鲜有应用?听听王欣宇怎么说!》有7条评论

发表评论