深度探索4：V3的全面进化，R1的崛起与蒸馏版的真相揭秘

作者：陈勇

最近，很多互联网公司和大企业都在接入DeepSeek R1，大家纷纷试着进行本地部署，场面可谓热闹。但你可能不知道的是，由于硬件的限制，很多所谓的本地部署其实只能用到R1的蒸馏版。而真正的DeepSeek集大成者是V3，R1是在这个基础上发展而来的。671B版本的R1才是正宗的，参数少于这个的都是经过简化的蒸馏版。接下来，我会详细讲讲R1和V3之间的关系，以及蒸馏版到底是什么。

DeepSeek版本演变回顾

先来看看DeepSeek推出大语言模型的时间线吧：

2023年11月2日，DeepSeek-Coder发布，参数量为33B，这是他们的第一个开源大语言模型。
2023年11月29日，DeepSeek推出了DeepSeek LLM，包含7B和67B的版本，分为Base和Chat两类，共四个版本。
2024年1月11日，DeepSeek MoE发布，参数量达到145B。
2024年2月5日，DeepSeek-Math发布，参数量为7B，是一款推理模型。
2024年3月11日，DeepSeek-VL发布，参数量同样为7B，支持多模态。
2024年5月7日，DeepSeek-V2发布，参数量达到236B。
2024年6月17日，DeepSeek-Coder-V2发布，参数量为236B。
2024年9月6日，DeepSeek-V2.5发布，参数量为238B。
2024年11月20日，DeepSeek-R1-Lite发布，参数量为1.5B。
2024年12月10日，DeepSeek-V2.5-1210（V2系列最终版）发布，参数量为236B。
2024年12月13日，DeepSeek-VL2发布，参数量为27B。
2024年12月26日，DeepSeek-V3发布，参数量达到671B。
2025年1月20日，DeepSeek-R1发布，参数量为671B，是一款推理模型。

DeepSeek的进化之路：从V3到R1

你可能会好奇DeepSeek到底有多牛。其实，它在技术上不断突破，逐步推出了一系列产品。尤其是V3，参数量高达6710亿，真的是个“怪兽”！它在2024年12月26日上线后，2025年1月27日就登顶了苹果中国和美国应用商店的免费下载榜。更值得注意的是，在全球大语言模型的性能排名中，V3位列第七，尤其在复杂问题和代码处理上表现更是出色，分别拿下第三的位置，开源模型中更是无敌。

R1是基于V3进化而来

很多朋友可能会问：“我们今天聊的是R1，那为什么又提起V3了？”其实，R1就是在V3的基础上进行进一步开发的！

看看上面这张图，它简单明了地说明了R1是如何从V3演变而来的。虽然有点复杂，但其实理解起来并不难。接下来我给你详细说说：

第一步：生成R1-Zero

首先，以V3为基础，通过强化学习（Reinforcement Learning，RL）来进一步提升模型的表现，主要是在精确度和格式上，这就产生了R1-Zero。这个版本和R1是同时发布的。

接着，对R1-Zero进行监督微调（Supervised Fine Tuning，SFT），这就得到了冷启动数据。

第二步：生成R1

在冷启动数据的基础上进行训练，这次除了关注精确度与格式，还加入了一致性的强化学习，确保将来输入和输出在语言上保持一致。经过强化学习和监督微调后，我们得到了思维链（Chain of Thinking，CoT）数据。

同时，直接从V3的监督微调中获取通用知识（Knowledge）数据，这些知识是现成的，随时可以使用。

将这两者结合，再进行两个方面的强化学习，包括基于规则的验证（数学、代码）和人类偏好，从而生成了R1。

第三步：生成蒸馏版本

利用之前生成的思维链和通用知识数据，对其他开源大语言模型进行监督微调。DeepSeek选择了阿里的Qwen 2.5和Meta的Llama 3，最终得到了所谓的蒸馏版本。

上面的截图来自Github，可以看到DeepSeek发布的R1有多少版本。

说到蒸馏，很多小伙伴可能不太明白，这里我简单解释一下：

DeepSeek做蒸馏版是为了把R1的推理能力迁移到参数量更小的模型中。
真正的R1只有DeepSeek-R1这个版本，它是所谓的满血版，Zero版本主要是用作对照，其他带后缀的则都是蒸馏版。
有些人说DeepSeek R1就是蒸馏的其他模型，感觉有“剽窃”嫌疑，其实是搞混了R1和它的蒸馏版。而且大语言模型训练使用的数据大多是公开或开源的，没有“剽窃”这一说。
只有671B的R1（不带任何后缀）才算是真正的R1，参数少于这个的都是蒸馏版本，通常本地部署使用的都是蒸馏版，因为满血版对硬件要求太高。

标题：搞懂R1与蒸馏版的那些事儿

其实，关于R1和它的蒸馏版本，大家可能会有点搞混。说白了，许多大语言模型训练用的数据其实都是公开的，根本不存在“抄袭”的问题。你知道吗？真正的R1是671B那个版本，只有它才算是完整的R1。而那些参数少于671B的，基本上都是蒸馏版。通常情况下，我们在本地部署的时候，使用的也都是这种蒸馏版，因为完整版本对硬件的要求实在是太高了。

来源：今日头条

原文标题：DeepSeek扫盲4：V3是集大成者，R1又站在V3肩膀上，蒸馏版并非R1 – 今日头条

原文链接：https://www.toutiao.com/article/7478498768262824460/

声明：

文章来自网络收集后经过ai改写发布，如不小心侵犯了您的权益，请联系本站删除，给您带来困扰，深表歉意！

《深度探索4：V3的全面进化，R1的崛起与蒸馏版的真相揭秘》有7条评论