清北才子聚集，DeepSeek团队如何在全网掀起热潮？

作者：梦晨西风

最近，DeepSeek-v3这个新模型引起了大家的关注，它在算力上只用了1/11，却超越了Llama 3，成为开源领域的一颗耀眼新星，真是让人惊艳啊！

紧接着，“雷军开出千万年薪挖DeepSeek的研究员罗福莉”的消息，更是让大家都在猜测DeepSeek团队的实力与魅力。

所以，不光是科技圈，整个互联网都在讨论这个话题，甚至小红书上也有人发帖问：“这个团队到底有多牛？”

清北才子聚集，DeepSeek团队如何在全网掀起热潮？

国际上，很多人也在翻译创始人梁文锋的访谈，甚至加了一些注释，希望能从中找到这家公司崛起的秘密。

清北才子聚集，DeepSeek团队如何在全网掀起热潮？

量子位通过整理各种资料发现，DeepSeek团队的一个显著特点，就是年轻化。

这里面有不少应届生和在读生，尤其是来自清华和北大的学生，他们在团队中非常活跃。

其中一些人，2024年正在DeepSeek进行研究的同时，刚好还获得了博士学位的奖项，真是令人佩服！

揭秘DeepSeek团队的年轻力量

你知道吗？DeepSeek团队里有不少年轻面孔，包括刚毕业的学生和在校生，尤其是来自清华和北大的才俊。他们在团队中的活跃表现让人印象深刻。更厉害的是，一些成员在2024年不仅参与了DeepSeek的研究，还获得了博士学位，真是让人刮目相看！

在这些年轻人中，有些人从DeepSeek LLM v1一路参与到DeepSeek-v3，而有些则是短暂的实习，但依然为团队带来了重要成果。

其实，DeepSeek提出的MLA新型注意力机制和GRPO强化学习对齐算法等创新，几乎都是出自这些年轻人的智慧。

2024年5月推出的DeepSeek-V2，正是这家大模型公司突破界限的重要一步。

其中最引人注目的创新，是在Transformer架构的基础上，采用了MLA（多头潜在注意力）来替代传统的多头注意力，这样一来，计算量和推理显存都得到了大幅减少，真是一个不错的提升！

在众多贡献者中，高华佐和曾旺丁在MLA架构上进行了关键的创新，值得大家关注。

标题：揭秘低调的高华佐与前沿的GRPO算法

高华佐这个名字或许你听说过，但他本人却很低调，大家只知道他是北大物理系的毕业生。

有趣的是，在被称为“大模型创业六小强”的阶跃星辰的专利文件中，似乎也能找到他的身影，不过目前还没确认他是否就是那位高华佐。

至于曾旺丁，他来自北京邮电大学，研究生时期的导师是著名的人工智能与网络搜索专家张洪刚。

在DeepSeek-V2的研究中，团队还取得了一个重要的成果——GRPO。

其实在DeepSeek-V2发布之前的三个月，DeepSeek-Math已经问世，这里首次提出了GRPO（Group Relative Policy Optimization）。

GRPO是一种PPO的变种强化学习算法，它摒弃了传统的critic模型，而是通过群体得分来估算基线，这样一来，训练所需的资源就大幅减少了，真的很给力！

GRPO的出现引起了广泛关注，甚至在阿里Qwen 2.5的技术报告中也提到过这一算法，看来它在圈内的影响力不容小觑。

### 深入了解DeepSeekMath的核心团队

其实，DeepSeekMath这个项目的三位主要作者都是在DeepSeek实习期间完成他们的研究工作的。

清北才子聚集，DeepSeek团队如何在全网掀起热潮？

其中一位核心作者邵智宏，目前是清华大学交互式人工智能（CoAI）课题组的博士生，跟随黄民烈教授学习。

清北才子聚集，DeepSeek团队如何在全网掀起热潮？

他的研究兴趣广泛，涵盖自然语言处理和深度学习，尤其关注构建一个健壮且可扩展的人工智能系统。这个系统可以整合多种技能，处理复杂的自然语言问题。

值得一提的是，邵智宏还曾在微软研究院工作过。

在完成DeepSeekMath后，他还参与了DeepSeek-Prover、DeepSeek-Coder-v2和DeepSeek-R1等多个项目。

清北才子聚集，DeepSeek团队如何在全网掀起热潮？

另一位核心作者朱琪豪，则是北京大学计算机学院软件研究所2024届的博士毕业生，跟随熊英飞副教授和张路教授进行研究，专注于深度代码学习领域。

北大博士生朱琪豪与DeepSeek团队的杰出成就

北大计算机学院的官方信息显示，朱琪豪在学术上表现相当亮眼，已经发表了16篇CCF-A类论文，并且在ASE和ESEC/FSE的会议上获得过一次ACM SIGSOFT杰出论文奖和一次提名。他的一篇论文在ESEC/FSE会议中，还跻身同年引用前三名。

在DeepSeek团队，朱琪豪负责开发了DeepSeek-Coder-V1，这个项目基于他的博士论文进行的研究。

他的博士论文《语言定义感知的深度代码学习技术及应用》也被选入了2024CCF软件工程专业委员会的博士学位论文激励计划。

清北才子聚集，DeepSeek团队如何在全网掀起热潮？

图源：北京大学计算机学院公众号

另外一位核心成员也来自北大。

Peiyi Wang，作为北大的博士生，向穗志方教授学习，正在进行相关的研究。

清北才子聚集，DeepSeek团队如何在全网掀起热潮？

值得一提的是，DeepSeek团队中还有一些成员从v1版本就参与进来，一直跟随到v3版本。

其中，代达劢也是一个代表性人物，他在2024年从北大计算机学院计算语言所毕业，导师同样是穗志方教授。

清北才子聚集，DeepSeek团队如何在全网掀起热潮？

图源：北京大学计算机学院公众号

代达劢在学术上同样有着不俗的表现，曾获得EMNLP 2023最佳长论文奖和CCL 2021最佳中文论文奖，发表的学术论文数量也超过20篇。

他的博士论文《预训练语言模型知识记忆的机理分析及能力增强关键技术研究》，在2024年中国中文信息学会的“博士学位论文激励计划”中被选中，成为了来自中国大陆高校的十篇优秀博士论文之一。

还有来自北大元培学院的王炳宣也值得关注哦。

DeepSeek团队的背后故事

提到王炳宣，他来自美丽的山东烟台，2017年顺利进入北京大学学习。

硕士毕业后，他加入了DeepSeek，参与了从DeepSeek LLM v1开始的一系列重要项目，真的是个了不起的人才。

另外，清华大学的赵成钢也非常引人注目。

赵成钢曾是衡水中学的顶尖学霸，获得了2016年CCF NOI的银牌。

他随后考入清华，大学二年级时就加入了学校的超算团队，三次带领团队赢得世界大学生超算竞赛的冠军。

现在，赵成钢在DeepSeek担任训练和推理基础架构的工程师，还曾在英伟达实习过，经验丰富。

图源：清华新闻网

DeepSeek是一支怎样的团队

团队里的这些年轻人，真的是让人惊叹不已。

不过，咱们还是得回到最初的问题：DeepSeek究竟是一支怎样的团队呢？它的组织结构又是如何的？

或许我们可以从创始人梁文锋的身上找到一些线索。

在2023年5月，DeepSeek刚宣布进军大模型领域的时候，梁文锋在接受36氪旗下的「暗涌」采访时提到他们的招聘标准：

我们看重的是能力，而非经验。

所以核心技术岗位的人员，基本上都是应届毕业生或毕业一两年的人。

从之后一年多发布的论文贡献名单来看，确实如此，博士在读、应届生和刚毕业一两年的成员占了很大比例。

即便是团队的领导者，通常也比较年轻，多数毕业4到6年。

比如说，负责DeepSeek后训练团队的吴俣，他2019年从北航获得博士学位，之前在微软的MSRA参与过小冰和必应百科等项目。

年轻团队与创新技术：DeepSeek的独特之处

吴俣博士在北航的学习期间，得到了李舟军教授和前MSRA副院长周明博士的共同指导。

而和他同门的还有郭达雅，他在中山大学完成学业，同时也受到周明博士的培养，并于2023年顺利获得博士学位。

2024年7月，郭达雅加入了DeepSeek，投身于一系列关于数学和代码大模型的工作。

郭达雅在本科阶段的表现也很出色，他在MSRA实习一年期间，居然发表了两篇顶级会议的论文。他幽默地表示：“在刚入学的第三天，我就完成了中大博士生的毕业要求。”

清北才子聚集，DeepSeek团队如何在全网掀起热潮？

除了年轻的团队成员，DeepSeek在国内AI公司中还有一个显著的特点：特别重视模型算法与硬件工程的结合。

DeepSeek v3的研究论文中，多达200位作者，并非所有人都专注于AI算法或数据分析。

在从DeepSeek LLM v1到v3的过程中，有一批人一直在努力，他们更侧重于算力的优化和硬件的提升。

他们以DeepSeek AI的名义共同发表了一篇论文《Fire-Flyer AI-HPC》，通过软硬件协同设计，成功降低了训练成本，解决了传统超算架构在AI训练需求上的不足。

Fire-Flyer实际上是幻方AI构建的萤火2号万卡集群，它使用了英伟达的A100 GPU，却在成本和能耗上超越了官方的DGX-A100服务器。

这支团队中，不乏曾在英伟达工作或实习的人，也有来自阿里云的同事，甚至还有不少是从幻方AI借调或直接转岗到DeepSeek，参与到每一项大模型的研发中。

如此重视软硬件协同的成果，正是凭借Llama 3 405B的1/11算力，成功训练出了性能更为优越的DeepSeek-v3。

清北才子聚集，DeepSeek团队如何在全网掀起热潮？

最后，DeepSeek的开源项目中还有一个特别的成果，它与语言模型无关，却专注于3D生成。

这项成就是由清华大学的博士生孙景翔在DeepSeek实习期间，与他的导师刘烨斌及DeepSeek团队的其他成员共同完成的。

### 深入了解DeepSeek团队的独特之处

在DeepSeek实习的学生中，还有来自中山大学逻辑学专业的辛华剑，他的贡献同样令人瞩目。

在实习期间，他参与了一个名为DeepSeek-Prover的项目，利用大型模型来证明数学定理，目前他正在爱丁堡大学攻读博士学位。

回过头来，再看看梁文锋的访谈，或许能让我们更好地理解这个团队的运作模式。

他们并不设定固定的岗位分工，而是让每个人根据兴趣自然而然地进行分工。
每个人对于资源的调动没有上限，任何人只要有兴趣，就可以随时调用训练集群，启动一个项目。
当某个创意展现出潜力时，团队会从上到下调配相应的资源来支持。

这让我不禁想到了AI领域的另一股重要力量，OpenAI。

在用人方面，他们同样不拘泥于经验，只要有能力，本科生和辍学生都能被录用。

他们也很重视新人，通过调动资源，让应届生和00后有机会从零开始研究Sora。

在潜力方向的把握上，公司会从高层开始进行设计和资源的分配。

可以说，DeepSeek在组织形态上最接近OpenAI的中国AI公司。

参考链接：

[1]https://mp.weixin.qq.com/s/Cajwfve7f-z2Blk9lnD0hA

[2]https://mp.weixin.qq.com/s/r9zZaEgqAa_lml_fOEZmjg

[3]https://mp.weixin.qq.com/s/9AV6Qrm_1HAK1V3t1MZXOw

[4]https://mp.weixin.qq.com/s/y4QwknL7e2Xcnk19LocR4A

[5]https://mp.weixin.qq.com/s/C9sYYQc6e0EAPegLMd_LVQ

⭐星标华尔街见闻，好内容不错过⭐

本文仅供参考，不构成个人投资建议，市场有风险，投资需谨慎，请自行判断和决策。

来源：今日头条

原文标题：全网都在扒的DeepSeek团队，是清北应届生撑起一片天 – 今日头条

原文链接：https://www.toutiao.com/article/7456575065073697320/

声明：

文章来自网络收集后经过ai改写发布，如不小心侵犯了您的权益，请联系本站删除，给您带来困扰，深表歉意！