深度探索4:V3的全面进化,R1的崛起与蒸馏版的真相揭秘

深度探索4:V3的全面进化,R1的崛起与蒸馏版的真相揭秘

作者:陈勇

最近,很多互联网公司和大企业都在接入DeepSeek R1,大家纷纷试着进行本地部署,场面可谓热闹。但你可能不知道的是,由于硬件的限制,很多所谓的本地部署其实只能用到R1的蒸馏版。而真正的DeepSeek集大成者是V3,R1是在这个基础上发展而来的。671B版本的R1才是正宗的,参数少于这个的都是经过简化的蒸馏版。接下来,我会详细讲讲R1和V3之间的关系,以及蒸馏版到底是什么。

DeepSeek版本演变回顾

先来看看DeepSeek推出大语言模型的时间线吧:

  • 2023年11月2日,DeepSeek-Coder发布,参数量为33B,这是他们的第一个开源大语言模型。
  • 2023年11月29日,DeepSeek推出了DeepSeek LLM,包含7B和67B的版本,分为Base和Chat两类,共四个版本。
  • 2024年1月11日,DeepSeek MoE发布,参数量达到145B。
  • 2024年2月5日,DeepSeek-Math发布,参数量为7B,是一款推理模型。
  • 2024年3月11日,DeepSeek-VL发布,参数量同样为7B,支持多模态。
  • 2024年5月7日,DeepSeek-V2发布,参数量达到236B。
  • 2024年6月17日,DeepSeek-Coder-V2发布,参数量为236B。
  • 2024年9月6日,DeepSeek-V2.5发布,参数量为238B。
  • 2024年11月20日,DeepSeek-R1-Lite发布,参数量为1.5B。
  • 2024年12月10日,DeepSeek-V2.5-1210(V2系列最终版)发布,参数量为236B。
  • 2024年12月13日,DeepSeek-VL2发布,参数量为27B。
  • 2024年12月26日,DeepSeek-V3发布,参数量达到671B。
  • 2025年1月20日,DeepSeek-R1发布,参数量为671B,是一款推理模型。
  • DeepSeek的进化之路:从V3到R1

    深度探索4:V3的全面进化,R1的崛起与蒸馏版的真相揭秘

    DeepSeek与同类产品性能比较

    你可能会好奇DeepSeek到底有多牛。其实,它在技术上不断突破,逐步推出了一系列产品。尤其是V3,参数量高达6710亿,真的是个“怪兽”!它在2024年12月26日上线后,2025年1月27日就登顶了苹果中国和美国应用商店的免费下载榜。更值得注意的是,在全球大语言模型的性能排名中,V3位列第七,尤其在复杂问题和代码处理上表现更是出色,分别拿下第三的位置,开源模型中更是无敌。

    R1是基于V3进化而来

    很多朋友可能会问:“我们今天聊的是R1,那为什么又提起V3了?”其实,R1就是在V3的基础上进行进一步开发的!

    深度探索4:V3的全面进化,R1的崛起与蒸馏版的真相揭秘

    从V3到R1

    看看上面这张图,它简单明了地说明了R1是如何从V3演变而来的。虽然有点复杂,但其实理解起来并不难。接下来我给你详细说说:

    第一步:生成R1-Zero

    首先,以V3为基础,通过强化学习(Reinforcement Learning,RL)来进一步提升模型的表现,主要是在精确度和格式上,这就产生了R1-Zero。这个版本和R1是同时发布的。

    接着,对R1-Zero进行监督微调(Supervised Fine Tuning,SFT),这就得到了冷启动数据。

    第二步:生成R1

    在冷启动数据的基础上进行训练,这次除了关注精确度与格式,还加入了一致性的强化学习,确保将来输入和输出在语言上保持一致。经过强化学习和监督微调后,我们得到了思维链(Chain of Thinking,CoT)数据。

    同时,直接从V3的监督微调中获取通用知识(Knowledge)数据,这些知识是现成的,随时可以使用。

    将这两者结合,再进行两个方面的强化学习,包括基于规则的验证(数学、代码)和人类偏好,从而生成了R1。

    第三步:生成蒸馏版本

    利用之前生成的思维链和通用知识数据,对其他开源大语言模型进行监督微调。DeepSeek选择了阿里的Qwen 2.5和Meta的Llama 3,最终得到了所谓的蒸馏版本。

    深度探索4:V3的全面进化,R1的崛起与蒸馏版的真相揭秘

    Github上发布的R1版本

    上面的截图来自Github,可以看到DeepSeek发布的R1有多少版本。

    说到蒸馏,很多小伙伴可能不太明白,这里我简单解释一下:

    • DeepSeek做蒸馏版是为了把R1的推理能力迁移到参数量更小的模型中。
    • 真正的R1只有DeepSeek-R1这个版本,它是所谓的满血版,Zero版本主要是用作对照,其他带后缀的则都是蒸馏版。
    • 有些人说DeepSeek R1就是蒸馏的其他模型,感觉有“剽窃”嫌疑,其实是搞混了R1和它的蒸馏版。而且大语言模型训练使用的数据大多是公开或开源的,没有“剽窃”这一说。
    • 只有671B的R1(不带任何后缀)才算是真正的R1,参数少于这个的都是蒸馏版本,通常本地部署使用的都是蒸馏版,因为满血版对硬件要求太高。

    标题:搞懂R1与蒸馏版的那些事儿

    其实,关于R1和它的蒸馏版本,大家可能会有点搞混。说白了,许多大语言模型训练用的数据其实都是公开的,根本不存在“抄袭”的问题。你知道吗?真正的R1是671B那个版本,只有它才算是完整的R1。而那些参数少于671B的,基本上都是蒸馏版。通常情况下,我们在本地部署的时候,使用的也都是这种蒸馏版,因为完整版本对硬件的要求实在是太高了。

来源:今日头条
原文标题:DeepSeek扫盲4:V3是集大成者,R1又站在V3肩膀上,蒸馏版并非R1 – 今日头条
声明:
文章来自网络收集后经过ai改写发布,如不小心侵犯了您的权益,请联系本站删除,给您带来困扰,深表歉意!

《深度探索4:V3的全面进化,R1的崛起与蒸馏版的真相揭秘》有7条评论

  1. DeepSeek的技术不断进步,V3的参数量和性能真是惊人,特别是在复杂问题上的表现,让我对未来的应用充满期待。对R1的蒸馏版有了更深入的理解,确实很有意思。

    回复
  2. DeepSeek的技术演进真是令人惊叹,V3的强大让人刮目相看,期待R1在实际应用中的表现,能否充分发挥它的潜力。

    回复
  3. DeepSeek的产品迭代速度令人惊讶,V3的强大性能给我留下深刻印象,期待R1能在实际场景中大放异彩,推动更多创新应用。

    回复
  4. V3的参数量和性能确实令人震撼,R1作为其进化版,能否在实际应用中展现出更强的实力值得关注,期待后续的表现。

    回复
  5. DeepSeek的V3表现确实强劲,R1又在其基础上进行了新一轮的进化,未来在实际应用中能否更好地应对复杂问题,值得我们持续关注。

    回复
  6. DeepSeek的V3确实是一款强大的模型,R1的蒸馏版是否能在实际应用中充分发挥其优势,值得关注和期待。

    回复
  7. R1的蒸馏版虽然参数较少,但在实际部署中能否高效运作,还是个未知数。期待看到它在各种应用场景中的表现。

    回复

发表评论