这篇文章来自微信公众号:字母AI,作者是苗正,编辑王靖,插图是AI生成的。
到了2025年7月,DeepSeek的下载量竟然从之前的超过8000万骤降至2000多万,降幅高达72.2%,这个“DeepSeek跌落神坛”的事件瞬间成了热议话题。
不过,多位内部人士透露,DeepSeek即将东山再起!他们计划在2026年2月中旬推出新一代模型DeepSeek-V4。
这正好是在农历新年期间,距离前一代模型DeepSeek-R1发布整整一年。
这次发布的重点在于代码生成和处理能力的提升。
根据DeepSeek内部的基准测试,V4在编程任务中的表现已经超越了市场上的一些主流竞争对手,如Anthropic的Claude和OpenAI的GPT系列。
有消息称,新模型将解决许多长期以来困扰AI发展的技术瓶颈,可能会彻底改写Vibe Coding行业的格局。
一
报道提到,DeepSeek-V4在训练过程中对数据模式的理解能力有了显著提升,且性能没有出现衰退。这句话听上去复杂,其实可以分开来理解。
前半部分意思是,模型不仅仅是死记硬背,而是能洞察数据背后的规律和逻辑。
以DeepSeek-R1为例,模型被问到“strawberry里有几个r”时,由于它当时不理解“数”这个概念,只能依赖训练时的数据来回答。然而,那个数据的答案恰恰是错的,导致DeepSeek几乎总是给出2这个错误的答案,而不是正确的3。
而DeepSeek-V4则会彻底避免这种情况,前提是模型在训练时能够全面理解相关内容。
后半句提到的性能退化,指的是在AI训练过程中,随着模型学习新知识或训练时间延长,常常会出现“新知识忘了旧知识”的现象,或者模型变得不稳定。这种情况在行业内被称为“灾难性遗忘”或“模型坍塌”。
因此,V4在不断变得更聪明、更复杂的过程中,依旧保持了极高的稳定性和原有能力的完整性,没有出现任何副作用或能力的倒退。
这恰恰是构建编程Agent的先决条件。
在现代软件工程中,一小处修改可能会影响到多个文件和成千上万行代码的依赖关系。
而以往的模型常常受到上下文窗口或注意力机制衰减的限制,无法对庞大的项目进行有效修改。
V4极有可能成为专为“Agent时代”量身打造的模型。
一年前,DeepSeek-R1的发布确实在行业内引起了很大反响。这款强调推理能力的模型证明了低成本研发路径的可行性。
然而,时至今日,人工智能行业的关注点已经发生了显著变化。单纯的文本生成或逻辑推理已不再是唯一的竞争优势,代码生成正在成为大模型能力的“试金石”。
如今的开发环境中,“Vibe Coding”已成为新趋势,这要求AI不仅能补全代码,还能理解开发者的意图流,实现从自然语言到复杂工程逻辑的无缝转化。
看起来DeepSeek已经准备在新赛道上大展拳脚了。
二
如果仔细梳理DeepSeek团队以及核心人物梁文锋在R1发布后这一年里的学术进展,会发现一条清晰且扎实的技术演进路线。
这些公开的论文和技术报告,不仅总结了过去的成就,更为V4的强大能力打下了基础。
2025年9月,DeepSeek-R1的相关论文成功登上了顶级学术期刊《Nature》的封面,通讯作者是梁文锋。
面对审稿人关于是否使用OpenAI模型进行蒸馏训练的尖锐质疑,DeepSeek团队明确否认,并首次公开了令人瞩目的低成本数据:从V3-Base训练到R1,仅花费了29.4万美元。
当然,这个成本仅指R1的后训练阶段,不包括V3-Base基础模型的约600万美元的训练投入。
数据公开后,《Nature》特意撰写社论,标志着DeepSeek在学术严谨性和技术原创性上的国际认可,彻底打破了外界对中国大模型“套壳”或“跟风”的偏见。
不过,真正能证明DeepSeek-V4在代码生成方面有显著突破的证据,是在2025年最后一天,DeepSeek团队发表的论文《mHC:流形约束超连接》。
代码生成任务对模型的逻辑深度和上下文跨度要求极高,通常需要更大规模的模型参数和更深的网络结构。
然而,传统的超连接架构在模型规模扩大时,常常会遇到严重的信号增益问题,导致训练过程极不稳定甚至崩溃。
为了解决这一根本性物理难题,DeepSeek团队在这篇论文中提出了一种全新的架构mHC。
简单来说,它为快速传输的信号加入了一道精密的阀门,将信号增益控制在1.6倍左右。
论文数据显示,在3B、9B乃至18B参数规模的模型测试中,应用了mHC架构的模型在BIG-BenchHard推理基准上提升了2.1%。
这项由梁文锋联合署名的研究成果,实际上解决了大模型在“做大”和“做复杂”过程中的稳定性难题。
这意味着V4模型极有可能采用了这种全新的架构,在拥有更多参数和更深层推理能力的同时,保持高效训练和极高稳定性。
不止如此,2026年1月初,DeepSeek悄悄将arXiV上的R1论文从22页大幅增加至86页。
新增的60多页内容详细披露了R1的完整训练流程,包括冷启动、推理导向的强化学习、拒绝采样与再微调,以及对齐导向的强化学习四个关键步骤。
业内普遍猜测,这种在春节前夕“清库存”式的技术披露,往往预示着下一代更强大技术的成熟。
既然R1的技术细节不再是核心壁垒,那么即将到来的V4必然会拥有更高的技术壁垒。
三
在2026年的元旦,来自量化界的又一股力量也加入了竞争。由九坤投资创始团队成立的至知创新研究院(IQuestResearch),发布了名为IQuest-Coder-V1的开源代码大模型。我们曾在文章《又是量化基金,第二个DeepSeek时刻到来了?》中对此作过介绍。
这个同样源于量化背景的团队,拥有40B参数的模型,在SWE-benchVerified测试中取得了81.4%的高分,达到了Claude和ChatGPT的水平。
而在Vibe Coding的竞争中,国内大厂的动作也不容小觑。
字节跳动的豆包在2025年初推出了Trae编程工具,实现了HTML预览、Python运行和完整项目生成等功能,让开发者可以在一个界面内完成从构思到部署的全流程。
阿里的通义千问在12月26日更新到了Qwen Code v0.5.0版本,最大亮点是支持在终端窗口中同时运行四个Qwen Code实例,可并行处理智能问答、实时翻译、原型设计和创意绘图等不同任务,成功实现了AI编程“跳出命令行”的突破。
不过,最引发行业震动的还是豆包在硬件终端上的突破性尝试。2025年12月1日,字节跳动与中兴通讯合作推出了搭载豆包手机助手的努比亚M153工程样机,售价3499元,首批约3万台在当天迅速售罄,甚至在二手市场炒出了高价。
这款手机助手的核心能力在于跨应用操作。用户只需用自然语言发出指令,AI就能自动跳转多个应用完成点外卖、订机票、比价购物等复杂任务。
这一系列动作背后,反映出AI大模型正在从云端走向终端,从工具走向入口的战略转型。
或许,DeepSeek的手机也在不远的将来问世。
与此同时,资本市场也迎来了大模型行业的丰收季。
在经历了“百模大战”的热潮后,中国的AI行业正快速向前推进,逐渐集中在几家顶尖企业上。智谱AI和MiniMax这两家公司的成功上市就很好地体现了这一点。
智谱在1月8日正式登陆港交所,发行价为116.2港元每股,上市首日就给市场带来了意外的惊喜。开盘时就冲到了120港元,收盘时更是达到了131.5港元,第一天就上涨了13.17%,市值一下飙升到578.9亿港元,成为了“全球大模型第一股”。
第二天的开盘价直接来到了137.2港元,收盘时则涨至158.6港元,相比首日的收盘价又增加了20.6%,市值也随之升至698.21亿港元。这样算下来,按发行价来算,短短两天内已经涨了接近37%,真是不给做空的人留机会。
而MiniMax则比智谱晚一天上市,但其表现更为抢眼。它的发行价为165港元每股,且是按最高价定的。在上市前一天的暗盘交易中,股价已经上涨了25%到29%,报205.60至212.60港元。
上市当天,MiniMax的开盘价为235.4港元,涨幅高达42.7%。之后股价一路飞涨,盘中最高触及351.8港元,最终收于345港元,较发行价暴增了109.09%,市值也达到了1054亿港元,成功加入千亿市值俱乐部。
尽管目前这两家公司都因高额的研发投入而处于亏损状态,但它们强劲的增长曲线显示出市场对高质量AI模型的付费意愿正在逐步形成。
中国的AI行业仍在不断发展,而全球的目光又一次聚焦在DeepSeek身上。这个一年前通过低成本路径颠覆行业认知的团队,将在春节期间交出新的成果。
DeepSeek能否再一次“震惊全世界”,只需再等几天就能揭晓答案。
本文来自微信公众号:字母AI,作者:苗正
本内容由作者授权发布,观点仅代表作者本人,不代表虎嗅立场。如对本稿件有异议或投诉,请联系 tougao@huxiu.com。
本文来自虎嗅,原文链接:
https://www.huxiu.com/article/4825140.html?f=jinritoutiao











这个新模型真的能超越Claude和GPT吗?有信心吗?
希望V4能真正避免“灾难性遗忘”,这对模型的应用至关重要。
文章提到的“灾难性遗忘”让我想起以前的模型表现,V4如何保持稳定性很关键。
DeepSeek-V4会不会在实际应用中遇到新的技术瓶颈?
如果V4真的能理解开发者意图,那将是个游戏规则的改变,不知道其他模型会如何应对。
看到V4的表现,我对AI的未来充满信心!
听说V4的代码生成能力很强,有没有具体的案例分享一下?
AI在编程辅助方面的应用真是越来越广泛了,让我想起之前用过的模型,真希望V4能有所不同。
我之前也用过DeepSeek-R1,偶尔会遇到理解错误,希望V4能有实质性的突破。